SF
PyTorch 开发
PyTorch 开发
注册登录
关注博客
注册登录
主页
关于
RSS
【TVM 教程】如何使用 TensorCores 优化卷积
超神经HyperAI
2024-12-17
阅读 19 分钟
380
本教程演示如何在 TVM 中使用 TensorCores 编写高性能卷积调度。在这个例子中,会假设卷积输入的 batch 较大。强烈建议前置讲解 如何在 GPU 上优化卷积。
精准预测美国失业率和贫困率,谷歌人口动态基础模型PDFM已开源,可增强现有地理空间模型
超神经HyperAI
2024-12-11
阅读 7 分钟
240
疾病、经济危机、失业、灾害……人类世界长期以来被各种各样的问题「侵扰」,了解人口动态对于解决这类复杂的社会问题至关重要。 政府相关人员可以通过人口动态数据来模拟疾病的传播,预测房价和失业率,甚至预测经济危机。然而,在过去几十年间,如何准确预测人口动态,对研究人员和政策制定者来说一直是一项挑战。
【TVM 教程】如何在 GPU 上优化卷积
超神经HyperAI
2024-12-10
阅读 5 分钟
266
本教程演示了如何在 TVM 中编写高性能卷积实现。以正方形大小的输入张量和滤波器为例,假设卷积输入的 batch 较大。在此示例中,使用不同的布局来存储数据,以实现更好的数据局部性。缓冲区布局是 HWCN,分别代表高度、宽度、通道、batch。
【TVM 教程】如何在 CPU 上优化 GEMM
超神经HyperAI
2024-12-04
阅读 17 分钟
245
TVM 提供抽象接口,允许用户分别描述算法和算法的实现(所谓的调度)。通常,以高性能调度编写算法会破坏算法的可读性和模块化。此外,尝试各种看似有希望的 schedules 非常耗时。在 TVM 的帮助下,可以有效地尝试这些 schedules 以提高性能。
【TVM 教程】使用 Relay Visualizer 可视化 Relay
超神经HyperAI
2024-09-26
阅读 4 分钟
325
Relay IR 模块可以包含很多操作。通常单个操作很容易理解,但放在一起可能会使计算图难以阅读。随着优化 pass 发挥作用,情况可能会变得更糟。
【TVM 教程】在 Relay 中使用 Pipeline Executor
超神经HyperAI
2024-09-11
阅读 7 分钟
391
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → Apache TVM 中文站tvm.hyper.ai/作者:Hua Jiang本教程介绍如何将「Pipeline Executor」与 Relay 配合使用。 {代码...} 创建一个简单的网络,这个网络也可以是一个预训练的模型。创建一个由 convoluti...
【TVM 教程】在 Relay 中使用外部库
超神经HyperAI
2024-09-04
阅读 43 分钟
298
Relay 内部用 TVM 来生成 target-specific 的代码。例如,TVM 使用 CUDA 后端为用户提供的网络中的所有层生成 CUDA 内核。有时也可将各个供应商开发的外部库合并到 Relay 中,TVM 有一种机制可以透明地调用这些库——对于 Relay 用户,只需要设置一个适当的 target 字符串。
【TVM 教程】构建图卷积网络
超神经HyperAI
2024-08-29
阅读 11 分钟
424
本文介绍如何用 Relay 构建图卷积网络(GCN)。本教程演示在 Cora 数据集上运行 GCN。Cora 数据集是图神经网络(GNN)的 benchmark,同时是支持 GNN 训练和推理的框架。我们直接从 DGL 库加载数据集来与 DGL 进行同类比较。
【TVM 教程】使用 tvmc 接口在 Adreno™ 上部署预训练模型
超神经HyperAI
2024-08-21
阅读 33 分钟
333
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]本文是一篇关于在 Adreno™ 上部署预训练 Keras resnet50 模型的逐步教程。此外,您应该已经为 Android 构建了 TVM。请参阅以下说明,了解如何构建它并设置 RPC 环境。在 Adreno GPU 上部署 {代码....
【TVM 教程】在 Adreno™ 上部署预训练模型
超神经HyperAI
2024-08-16
阅读 10 分钟
323
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]本文是一个逐步教程,演示如何在 Adreno 上(不同精度)部署预训练的 PyTorch ResNet-18 模型。首先,我们需要安装 PyTorch 与 TorchVision,因为我们将使用它作为我们的模型库。可以通过 pip 快...
【TVM 教程】在 CPU 上部署 Hugging Face 剪枝模型
超神经HyperAI
2024-08-05
阅读 12 分钟
400
尽管本教程的主要目的是在已经修剪过的模型上实现加速,但评估修剪后模型的速度也十分必要。为此,我们提供了一个函数采用未修剪的模型,并将其权重替换为指定稀疏的随机和修剪权重。确定模型是否值得修剪时,这可能是一个有用的特性。
【TVM 教程】在 CUDA 上部署量化模型
超神经HyperAI
2024-08-02
阅读 4 分钟
414
本文介绍如何用 TVM 自动量化(TVM 的一种量化方式)。有关 TVM 中量化的更多详细信息,参阅 此处。本教程将在 ImageNet 上导入一个 GluonCV 预训练模型到 Relay,量化 Relay 模型,然后执行推理。
【TVM 教程】使用 TVM 部署框架预量化模型 - 第 3 部分(TFLite)
超神经HyperAI
2024-07-18
阅读 5 分钟
446
更多 TVM 中文文档可访问 →Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。 | Apache TVM 中文站作者:Siju Samuel此教程介绍如何量化 TFLite 计算图,并通过 TVM 编译和执行。有关使用 TFLite 量化模型的更多详细信息,参阅 转换量化模型。TFLite 模型下载 链接。开始前,先安装...
【TVM 教程】使用 TVM 部署框架预量化模型
超神经HyperAI
2024-07-12
阅读 6 分钟
447
这里演示了如何加载和运行由 PyTorch、MXNet 和 TFLite 量化的模型。加载后,可以在任何 TVM 支持的硬件上运行编译后的量化模型。
【TVM 教程】编译 PyTorch 目标检测模型
超神经HyperAI
2024-06-07
阅读 7 分钟
586
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]本文介绍如何用 Relay VM 部署 PyTorch 目标检测模型。首先应安装 PyTorch。此外,还应安装 TorchVision,并将其作为模型合集(model zoo)。可通过 pip 快速安装: {代码...} 或参考官网:[链接]...
【TVM 教程】在树莓派上部署预训练模型
超神经HyperAI
2024-04-27
阅读 4 分钟
551
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]此教程介绍如何用 Relay 编译 ResNet 模型,并将其部署到树莓派。 {代码...} 在设备上构建 TVM Runtime首先在远程设备上构建 TVM runtime。本节和下一节中的所有指令都应在目标设备(例如树莓派...
在 Jetson Nano 上部署预训练模型
超神经HyperAI
2024-03-20
阅读 5 分钟
578
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]此教程介绍如何用 Relay 编译 ResNet 模型,并将其部署到 Jetson Nano。 {代码...} 在 Jetson Nano 上构建 TVM Runtime第一步是在远程设备上构建 TVM runtime。备注本节和下一节中的所有指令都应...
在 Android 上部署预训练模型
超神经HyperAI
2024-03-12
阅读 7 分钟
432
更多 TVM 中文文档可访问 →[链接]下面是用 Relay 编译 Keras 模型,并将其部署到 Android 设备上的示例: {代码...} 设置环境由于 Android 需要的包比较多,推荐使用官方的 Docker 镜像。首先,执行下面的命令来构建和运行 Docker 镜像: {代码...} 在容器中,克隆的 TVM 目录挂载到 /workspace。此时,挂载 RPC 要用的...
部署到 Adreno™ GPU
超神经HyperAI
2024-03-10
阅读 12 分钟
630
TVM 使用 TVM 的原生 OpenCL 后端 和 OpenCLML 后端以支持加速 Adreno™ GPU 上的深度学习。TVM 的原生 OpenCL 后端通过结合纹理内存使用和 Adreno™ 友好布局来改进 Adreno™ 。 OpenCLML 是由高通发布的 SDK ,提供了大多数深度学习运算符的内核加速库。
Relay TensorRT 集成
超神经HyperAI
2024-01-30
阅读 5 分钟
369
NVIDIA TensorRT 是一个用于优化深度学习推理的库。这种集成尽可能多地将算子从 Relay 迁移到 TensorRT,无需对 schedule 调优,即可提升 NVIDIA GPU 的性能。
TorchServe 详解:5 步将模型部署到生产环境
超神经HyperAI
2023-01-04
阅读 3 分钟
2.9k
内容导读TorchServe 自 2020 年 4 月推出至今,经历了 2 年多的发展,变得愈发成熟和稳定,本文将对 TorchServe 进行全面介绍。
PyTorch 官方博客:PyTorch Profiler v1.9 详解
超神经HyperAI
2021-09-02
阅读 6 分钟
9.3k
Profiler v1.9 的改进主要针对在运行时和/或内存上能耗最严重的执行步骤,同事将 GPU 和 CPU 之间的工作负载分配进行可视化。
PyTorch 官方教程:撸一个神经网络
超神经HyperAI
2021-07-27
阅读 3 分钟
8.3k
本文为 PyTorch 官方教程中:如何构建神经网络。基于 PyTorch 专门构建神经网络的子模块 torch.nn 构建一个简单的神经网络。
高性能、高适配,SSD 孪生兄弟出场即 C 位
超神经HyperAI
2021-07-01
阅读 4 分钟
5k
内容导读PyTorch 1.9 同步更新了一些库,包括 TorchVision 中新增的 SSD 和 SSDlite 模型,与 SSD 相比,SSDlite 更适用于移动端 APP 开发。
一文掌握 MobileNetV3 在 TorchVision 中的实现细节
超神经HyperAI
2021-06-10
阅读 6 分钟
8.4k
MobileNetV3 架构的实现严格遵守了原始论文中的设定,支持用户自定义,为构建分类、目标检测和语义分割 Backbone 提供了不同的配置。 它的结构设计与 MobileNetV2 类似,两者共用相同的构建模块。
PyTorch 大杀器:用 AdaptDL 优化 GPU 集群中的 EDL
超神经HyperAI
2021-03-30
阅读 4 分钟
2.5k
内容导读 AdaptDL 是一个资源自适应深度学习训练和调度框架,是 CASL 开源项目的一部分。AdaptDL 的目标是使分布式 DL 在动态资源环境中变得简单和高效。