主要观点:宣布 PyTorch®2.7 发布,包含多项新特性及众多贡献者的工作,分为 beta 特性和 prototype 特性。
关键信息:
- 支持 NVIDIA Blackwell GPU 架构及 CUDA 12.8 预构建轮子,跨 Linux x86 和 arm64 架构。
- torch.compile 支持 Torch Function Modes 可实现自定义行为。
- Mega Cache 实现端到端可移植缓存。
- 新的 FlexAttention 特性,包括 LLM 首 token 处理等。
beta 特性: - Torch.Compile 支持 Torch Function Modes:可重写操作实现自定义行为,用于 FlexAttention 重写索引操作,可参考教程。
- Mega Cache:实现端到端可移植缓存,通过特定函数调用预填充缓存,参考教程。
prototype 特性: - NVIDIA Blackwell Architecture Support:支持新架构并提供 CUDA 12.8 预构建轮子,升级相关组件和库,参考特定 issue。
- PyTorch Native Context Parallel:创建 Python 上下文实现并行,支持多种注意力后端,参考教程。
- Enhancing Intel GPU Acceleration:针对 Intel GPU 架构的性能优化,包括在 Windows 11 上启用 torch.compile 等,参考相关指南和教程。
- FlexAttention LLM first token processing on x86 CPUs:在 x86 CPU 上支持更多 FlexAttention 变体,使用统一 API 并受益于 torch.compile,在 PyTorch 2.7 中引入。
- FlexAttention LLM throughput mode optimization:通过新 C++微 GEMM 模板能力提升 x86 CPU 上 LLM 推理吞吐量性能,用户可受益,使用 FlexAttention APIs 和 torch.compile 更顺畅。
- Foreach Map:利用 torch.compile 对张量列表应用函数,优势明显,参考教程。
- Flex Attention for Inference:为 ML 研究者引入优化的解码后端,支持多种特性。
- Prologue Fusion Support in Inductor:通过融合操作前的操作到 matmul 内核来优化矩阵乘法性能。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。