PyTorch 2.7 版本 – PyTorch

主要观点:宣布 PyTorch®2.7 发布,包含多项新特性及众多贡献者的工作,分为 beta 特性和 prototype 特性。
关键信息:

  • 支持 NVIDIA Blackwell GPU 架构及 CUDA 12.8 预构建轮子,跨 Linux x86 和 arm64 架构。
  • torch.compile 支持 Torch Function Modes 可实现自定义行为。
  • Mega Cache 实现端到端可移植缓存。
  • 新的 FlexAttention 特性,包括 LLM 首 token 处理等。
    beta 特性:
  • Torch.Compile 支持 Torch Function Modes:可重写操作实现自定义行为,用于 FlexAttention 重写索引操作,可参考教程。
  • Mega Cache:实现端到端可移植缓存,通过特定函数调用预填充缓存,参考教程。
    prototype 特性:
  • NVIDIA Blackwell Architecture Support:支持新架构并提供 CUDA 12.8 预构建轮子,升级相关组件和库,参考特定 issue。
  • PyTorch Native Context Parallel:创建 Python 上下文实现并行,支持多种注意力后端,参考教程。
  • Enhancing Intel GPU Acceleration:针对 Intel GPU 架构的性能优化,包括在 Windows 11 上启用 torch.compile 等,参考相关指南和教程。
  • FlexAttention LLM first token processing on x86 CPUs:在 x86 CPU 上支持更多 FlexAttention 变体,使用统一 API 并受益于 torch.compile,在 PyTorch 2.7 中引入。
  • FlexAttention LLM throughput mode optimization:通过新 C++微 GEMM 模板能力提升 x86 CPU 上 LLM 推理吞吐量性能,用户可受益,使用 FlexAttention APIs 和 torch.compile 更顺畅。
  • Foreach Map:利用 torch.compile 对张量列表应用函数,优势明显,参考教程。
  • Flex Attention for Inference:为 ML 研究者引入优化的解码后端,支持多种特性。
  • Prologue Fusion Support in Inductor:通过融合操作前的操作到 matmul 内核来优化矩阵乘法性能。
阅读 10
0 条评论