PyTorch 开发 - SegmentFault 思否

【Triton 教程】triton_language.tensor

超神经HyperAI

3 月 12 日

阅读 3 分钟

405

Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境，以高效编写自定义 DNN 计算内核，并能够在现代 GPU 硬件上以最大吞吐量运行。

【vLLM 教程】使用 TPU 安装

超神经HyperAI

3 月 9 日

阅读 2 分钟

742

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →[链接]vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。依赖环境Google Cloud TPU VM（单主机和多主机）TPU 版本: v5e、v5p、v4Python: 3.10安装选项：href="[链接]">使用Do...

【TVM教程】为 NVIDIA GPU 自动调度神经网络

超神经HyperAI

2 月 25 日

阅读 31 分钟

729

针对特定设备和工作负载的自动调优对于获得最佳性能至关重要。本文介绍如何使用 auto-scheduler 为 NVIDIA GPU 调优整个神经网络。

【TVM教程】为 x86 CPU 自动调优卷积网络

超神经HyperAI

2 月 19 日

阅读 10 分钟

473

注意，本教程不会在 Windows 或最新版本的 macOS 上运行。如需运行，请将本教程的主体放在 if __name__ == "__main__": 代码块中。

【TVM 教程】如何使用 TensorCores 优化卷积

超神经HyperAI

2024-12-17

阅读 19 分钟

646

本教程演示如何在 TVM 中使用 TensorCores 编写高性能卷积调度。在这个例子中，会假设卷积输入的 batch 较大。强烈建议前置讲解如何在 GPU 上优化卷积。

精准预测美国失业率和贫困率，谷歌人口动态基础模型PDFM已开源，可增强现有地理空间模型

超神经HyperAI

2024-12-11

阅读 7 分钟

506

疾病、经济危机、失业、灾害……人类世界长期以来被各种各样的问题「侵扰」，了解人口动态对于解决这类复杂的社会问题至关重要。政府相关人员可以通过人口动态数据来模拟疾病的传播，预测房价和失业率，甚至预测经济危机。然而，在过去几十年间，如何准确预测人口动态，对研究人员和政策制定者来说一直是一项挑战。

【TVM 教程】如何在 GPU 上优化卷积

超神经HyperAI

2024-12-10

阅读 5 分钟

537

本教程演示了如何在 TVM 中编写高性能卷积实现。以正方形大小的输入张量和滤波器为例，假设卷积输入的 batch 较大。在此示例中，使用不同的布局来存储数据，以实现更好的数据局部性。缓冲区布局是 HWCN，分别代表高度、宽度、通道、batch。

【TVM 教程】如何在 CPU 上优化 GEMM

超神经HyperAI

2024-12-04

阅读 17 分钟

487

TVM 提供抽象接口，允许用户分别描述算法和算法的实现（所谓的调度）。通常，以高性能调度编写算法会破坏算法的可读性和模块化。此外，尝试各种看似有希望的 schedules 非常耗时。在 TVM 的帮助下，可以有效地尝试这些 schedules 以提高性能。

【TVM 教程】使用 Relay Visualizer 可视化 Relay

超神经HyperAI

2024-09-26

阅读 4 分钟

526

Relay IR 模块可以包含很多操作。通常单个操作很容易理解，但放在一起可能会使计算图难以阅读。随着优化 pass 发挥作用，情况可能会变得更糟。

【TVM 教程】在 Relay 中使用 Pipeline Executor

超神经HyperAI

2024-09-11

阅读 7 分钟

590

Apache TVM 是一个端到端的深度学习编译框架，适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → Apache TVM 中文站tvm.hyper.ai/作者：Hua Jiang本教程介绍如何将「Pipeline Executor」与 Relay 配合使用。 {代码...} 创建一个简单的网络，这个网络也可以是一个预训练的模型。创建一个由 convoluti...

【TVM 教程】在 Relay 中使用外部库

超神经HyperAI

2024-09-04

阅读 43 分钟

475

Relay 内部用 TVM 来生成 target-specific 的代码。例如，TVM 使用 CUDA 后端为用户提供的网络中的所有层生成 CUDA 内核。有时也可将各个供应商开发的外部库合并到 Relay 中，TVM 有一种机制可以透明地调用这些库——对于 Relay 用户，只需要设置一个适当的 target 字符串。

【TVM 教程】构建图卷积网络

超神经HyperAI

2024-08-29

阅读 11 分钟

622

本文介绍如何用 Relay 构建图卷积网络（GCN）。本教程演示在 Cora 数据集上运行 GCN。Cora 数据集是图神经网络（GNN）的 benchmark，同时是支持 GNN 训练和推理的框架。我们直接从 DGL 库加载数据集来与 DGL 进行同类比较。

【TVM 教程】使用 tvmc 接口在 Adreno™ 上部署预训练模型

超神经HyperAI

2024-08-21

阅读 33 分钟

512

Apache TVM 是一个端到端的深度学习编译框架，适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]本文是一篇关于在 Adreno™ 上部署预训练 Keras resnet50 模型的逐步教程。此外，您应该已经为 Android 构建了 TVM。请参阅以下说明，了解如何构建它并设置 RPC 环境。在 Adreno GPU 上部署 {代码....

【TVM 教程】在 Adreno™ 上部署预训练模型

超神经HyperAI

2024-08-16

阅读 10 分钟

488

Apache TVM 是一个端到端的深度学习编译框架，适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]本文是一个逐步教程，演示如何在 Adreno 上（不同精度）部署预训练的 PyTorch ResNet-18 模型。首先，我们需要安装 PyTorch 与 TorchVision，因为我们将使用它作为我们的模型库。可以通过 pip 快...

【TVM 教程】在 CPU 上部署 Hugging Face 剪枝模型

超神经HyperAI

2024-08-05

阅读 12 分钟

585

尽管本教程的主要目的是在已经修剪过的模型上实现加速，但评估修剪后模型的速度也十分必要。为此，我们提供了一个函数采用未修剪的模型，并将其权重替换为指定稀疏的随机和修剪权重。确定模型是否值得修剪时，这可能是一个有用的特性。

【TVM 教程】在 CUDA 上部署量化模型

超神经HyperAI

2024-08-02

阅读 4 分钟

623

本文介绍如何用 TVM 自动量化（TVM 的一种量化方式）。有关 TVM 中量化的更多详细信息，参阅此处。本教程将在 ImageNet 上导入一个 GluonCV 预训练模型到 Relay，量化 Relay 模型，然后执行推理。

【TVM 教程】使用 TVM 部署框架预量化模型 - 第 3 部分（TFLite）

超神经HyperAI

2024-07-18

阅读 5 分钟

671

更多 TVM 中文文档可访问 →Apache TVM 是一个端到端的深度学习编译框架，适用于 CPU、GPU 和各种机器学习加速芯片。 | Apache TVM 中文站作者：Siju Samuel此教程介绍如何量化 TFLite 计算图，并通过 TVM 编译和执行。有关使用 TFLite 量化模型的更多详细信息，参阅转换量化模型。TFLite 模型下载链接。开始前，先安装...

【TVM 教程】使用 TVM 部署框架预量化模型

超神经HyperAI

2024-07-12

阅读 6 分钟

616

这里演示了如何加载和运行由 PyTorch、MXNet 和 TFLite 量化的模型。加载后，可以在任何 TVM 支持的硬件上运行编译后的量化模型。

【TVM 教程】编译 PyTorch 目标检测模型

超神经HyperAI

2024-06-07

阅读 7 分钟

757

Apache TVM 是一个端到端的深度学习编译框架，适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]本文介绍如何用 Relay VM 部署 PyTorch 目标检测模型。首先应安装 PyTorch。此外，还应安装 TorchVision，并将其作为模型合集（model zoo）。可通过 pip 快速安装： {代码...} 或参考官网：[链接]...

【TVM 教程】在树莓派上部署预训练模型

超神经HyperAI

2024-04-27

阅读 4 分钟

714

Apache TVM 是一个端到端的深度学习编译框架，适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]此教程介绍如何用 Relay 编译 ResNet 模型，并将其部署到树莓派。 {代码...} 在设备上构建 TVM Runtime首先在远程设备上构建 TVM runtime。本节和下一节中的所有指令都应在目标设备（例如树莓派...

在 Jetson Nano 上部署预训练模型

超神经HyperAI

2024-03-20

阅读 5 分钟

798

Apache TVM 是一个端到端的深度学习编译框架，适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → [链接]此教程介绍如何用 Relay 编译 ResNet 模型，并将其部署到 Jetson Nano。 {代码...} 在 Jetson Nano 上构建 TVM Runtime第一步是在远程设备上构建 TVM runtime。备注本节和下一节中的所有指令都应...

在 Android 上部署预训练模型

超神经HyperAI

2024-03-12

阅读 7 分钟

595

更多 TVM 中文文档可访问 →[链接]下面是用 Relay 编译 Keras 模型，并将其部署到 Android 设备上的示例： {代码...} 设置环境由于 Android 需要的包比较多，推荐使用官方的 Docker 镜像。首先，执行下面的命令来构建和运行 Docker 镜像： {代码...} 在容器中，克隆的 TVM 目录挂载到 /workspace。此时，挂载 RPC 要用的...

部署到 Adreno™ GPU

超神经HyperAI

2024-03-10

阅读 12 分钟

913

TVM 使用 TVM 的原生 OpenCL 后端和 OpenCLML 后端以支持加速 Adreno™ GPU 上的深度学习。TVM 的原生 OpenCL 后端通过结合纹理内存使用和 Adreno™ 友好布局来改进 Adreno™ 。 OpenCLML 是由高通发布的 SDK ，提供了大多数深度学习运算符的内核加速库。