【TVM 教程】如何在 CPU 上优化 GEMM

12 月 4 日
阅读 17 分钟
34
TVM 提供抽象接口,允许用户分别描述算法和算法的实现(所谓的调度)。通常,以高性能调度编写算法会破坏算法的可读性和模块化。此外,尝试各种看似有希望的 schedules 非常耗时。在 TVM 的帮助下,可以有效地尝试这些 schedules 以提高性能。
封面图

【TVM 教程】使用 Relay Visualizer 可视化 Relay

9 月 26 日
阅读 4 分钟
231
Relay IR 模块可以包含很多操作。通常单个操作很容易理解,但放在一起可能会使计算图难以阅读。随着优化 pass 发挥作用,情况可能会变得更糟。
封面图

【TVM 教程】在 Relay 中使用 Pipeline Executor

9 月 11 日
阅读 7 分钟
323
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → Apache TVM 中文站​tvm.hyper.ai/作者:Hua Jiang本教程介绍如何将「Pipeline Executor」与 Relay 配合使用。 {代码...} 创建一个简单的网络,这个网络也可以是一个预训练的模型。​创建一个由 convoluti...
封面图

【TVM 教程】在 Relay 中使用外部库

9 月 4 日
阅读 43 分钟
199
Relay 内部用 TVM 来生成 target-specific 的代码。例如,TVM 使用 CUDA 后端为用户提供的网络中的所有层生成 CUDA 内核。有时也可将各个供应商开发的外部库合并到 Relay 中,TVM 有一种机制可以透明地调用这些库——对于 Relay 用户,只需要设置一个适当的 target 字符串。
封面图

【TVM 教程】构建图卷积网络

8 月 29 日
阅读 11 分钟
323
本文介绍如何用 Relay 构建图卷积网络(GCN)。本教程演示在 Cora 数据集上运行 GCN。Cora 数据集是图神经网络(GNN)的 benchmark,同时是支持 GNN 训练和推理的框架。我们直接从 DGL 库加载数据集来与 DGL 进行同类比较。
封面图

【TVM 教程】使用 tvmc 接口在 Adreno™ 上部署预训练模型

8 月 21 日
阅读 33 分钟
280
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]本文是一篇关于在 Adreno™ 上部署预训练 Keras resnet50 模型的逐步教程。此外,您应该已经为 Android 构建了 TVM。请参阅以下说明,了解如何构建它并设置 RPC 环境。在 Adreno GPU 上部署 {代码....
封面图

【TVM 教程】在 Adreno™ 上部署预训练模型

8 月 16 日
阅读 10 分钟
255
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]本文是一个逐步教程,演示如何在 Adreno 上(不同精度)部署预训练的 PyTorch ResNet-18 模型。首先,我们需要安装 PyTorch 与 TorchVision,因为我们将使用它作为我们的模型库。可以通过 pip 快...
封面图

【TVM 教程】在 CPU 上部署 Hugging Face 剪枝模型

8 月 5 日
阅读 12 分钟
311
尽管本教程的主要目的是在已经修剪过的模型上实现加速,但评估修剪后模型的速度也十分必要。为此,我们提供了一个函数采用未修剪的模型,并将其权重替换为指定稀疏的随机和修剪权重。确定模型是否值得修剪时,这可能是一个有用的特性。
封面图

【TVM 教程】在 CUDA 上部署量化模型

8 月 2 日
阅读 4 分钟
355
本文介绍如何用 TVM 自动量化(TVM 的一种量化方式)。有关 TVM 中量化的更多详细信息,参阅 此处。本教程将在 ImageNet 上导入一个 GluonCV 预训练模型到 Relay,量化 Relay 模型,然后执行推理。
封面图

【TVM 教程】使用 TVM 部署框架预量化模型 - 第 3 部分(TFLite)

7 月 18 日
阅读 5 分钟
387
更多 TVM 中文文档可访问 →Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。 | Apache TVM 中文站作者:Siju Samuel此教程介绍如何量化 TFLite 计算图,并通过 TVM 编译和执行。有关使用 TFLite 量化模型的更多详细信息,参阅 转换量化模型。TFLite 模型下载 链接。开始前,先安装...
封面图

【TVM 教程】使用 TVM 部署框架预量化模型

7 月 12 日
阅读 6 分钟
399
这里演示了如何加载和运行由 PyTorch、MXNet 和 TFLite 量化的模型。加载后,可以在任何 TVM 支持的硬件上运行编译后的量化模型。
封面图

【TVM 教程】编译 PyTorch 目标检测模型

6 月 7 日
阅读 7 分钟
551
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]本文介绍如何用 Relay VM 部署 PyTorch 目标检测模型。首先应安装 PyTorch。此外,还应安装 TorchVision,并将其作为模型合集(model zoo)。可通过 pip 快速安装: {代码...} 或参考官网:[链接]...
封面图

【TVM 教程】在树莓派上部署预训练模型

4 月 27 日
阅读 4 分钟
507
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]此教程介绍如何用 Relay 编译 ResNet 模型,并将其部署到树莓派。 {代码...} 在设备上构建 TVM Runtime​首先在远程设备上构建 TVM runtime。本节和下一节中的所有指令都应在目标设备(例如树莓派...
封面图

在 Jetson Nano 上部署预训练模型

3 月 20 日
阅读 5 分钟
522
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]此教程介绍如何用 Relay 编译 ResNet 模型,并将其部署到 Jetson Nano。 {代码...} 在 Jetson Nano 上构建 TVM Runtime​第一步是在远程设备上构建 TVM runtime。备注本节和下一节中的所有指令都应...
封面图

在 Android 上部署预训练模型

3 月 12 日
阅读 7 分钟
406
更多 TVM 中文文档可访问 →[链接]下面是用 Relay 编译 Keras 模型,并将其部署到 Android 设备上的示例: {代码...} 设置环境​由于 Android 需要的包比较多,推荐使用官方的 Docker 镜像。首先,执行下面的命令来构建和运行 Docker 镜像: {代码...} 在容器中,克隆的 TVM 目录挂载到 /workspace。此时,挂载 RPC 要用的...
封面图

部署到 Adreno™ GPU

3 月 10 日
阅读 12 分钟
572
TVM 使用 TVM 的原生 OpenCL 后端 和 OpenCLML 后端以支持加速 Adreno™ GPU 上的深度学习。TVM 的原生 OpenCL 后端通过结合纹理内存使用和 Adreno™ 友好布局来改进 Adreno™ 。 OpenCLML 是由高通发布的 SDK ,提供了大多数深度学习运算符的内核加速库。
封面图

Relay TensorRT 集成

1 月 30 日
阅读 5 分钟
337
NVIDIA TensorRT 是一个用于优化深度学习推理的库。这种集成尽可能多地将算子从 Relay 迁移到 TensorRT,无需对 schedule 调优,即可提升 NVIDIA GPU 的性能。
封面图

TorchServe 详解:5 步将模型部署到生产环境

2023-01-04
阅读 3 分钟
2.8k
内容导读TorchServe 自 2020 年 4 月推出至今,经历了 2 年多的发展,变得愈发成熟和稳定,本文将对 TorchServe 进行全面介绍。
封面图

PyTorch 官方博客:PyTorch Profiler v1.9 详解

2021-09-02
阅读 6 分钟
9.2k
Profiler v1.9 的改进主要针对在运行时和/或内存上能耗最严重的执行步骤,同事将 GPU 和 CPU 之间的工作负载分配进行可视化。

PyTorch 官方教程:撸一个神经网络

2021-07-27
阅读 3 分钟
8.2k
本文为 PyTorch 官方教程中:如何构建神经网络。基于 PyTorch 专门构建神经网络的子模块 torch.nn 构建一个简单的神经网络。

高性能、高适配,SSD 孪生兄弟出场即 C 位

2021-07-01
阅读 4 分钟
4.9k
内容导读PyTorch 1.9 同步更新了一些库,包括 TorchVision 中新增的 SSD 和 SSDlite 模型,与 SSD 相比,SSDlite 更适用于移动端 APP 开发。

一文掌握 MobileNetV3 在 TorchVision 中的实现细节

2021-06-10
阅读 6 分钟
8.3k
MobileNetV3 架构的实现严格遵守了原始论文中的设定,支持用户自定义,为构建分类、目标检测和语义分割 Backbone 提供了不同的配置。 它的结构设计与 MobileNetV2 类似,两者共用相同的构建模块。

PyTorch 大杀器:用 AdaptDL 优化 GPU 集群中的 EDL

2021-03-30
阅读 4 分钟
2.4k
内容导读 AdaptDL 是一个资源自适应深度学习训练和调度框架,是 CASL 开源项目的一部分。AdaptDL 的目标是使分布式 DL 在动态资源环境中变得简单和高效。