PyTorch 2.7 版本 – PyTorch - SegmentFault 思否

主要观点：宣布 PyTorch®2.7 发布，包含多项新特性及众多贡献者的工作，分为 beta 特性和 prototype 特性。
关键信息：

支持 NVIDIA Blackwell GPU 架构及 CUDA 12.8 预构建轮子，跨 Linux x86 和 arm64 架构。
torch.compile 支持 Torch Function Modes 可实现自定义行为。
Mega Cache 实现端到端可移植缓存。
新的 FlexAttention 特性，包括 LLM 首 token 处理等。
beta 特性：
Torch.Compile 支持 Torch Function Modes：可重写操作实现自定义行为，用于 FlexAttention 重写索引操作，可参考教程。
Mega Cache：实现端到端可移植缓存，通过特定函数调用预填充缓存，参考教程。
prototype 特性：
NVIDIA Blackwell Architecture Support：支持新架构并提供 CUDA 12.8 预构建轮子，升级相关组件和库，参考特定 issue。
PyTorch Native Context Parallel：创建 Python 上下文实现并行，支持多种注意力后端，参考教程。
Enhancing Intel GPU Acceleration：针对 Intel GPU 架构的性能优化，包括在 Windows 11 上启用 torch.compile 等，参考相关指南和教程。
FlexAttention LLM first token processing on x86 CPUs：在 x86 CPU 上支持更多 FlexAttention 变体，使用统一 API 并受益于 torch.compile，在 PyTorch 2.7 中引入。
FlexAttention LLM throughput mode optimization：通过新 C++微 GEMM 模板能力提升 x86 CPU 上 LLM 推理吞吐量性能，用户可受益，使用 FlexAttention APIs 和 torch.compile 更顺畅。
Foreach Map：利用 torch.compile 对张量列表应用函数，优势明显，参考教程。
Flex Attention for Inference：为 ML 研究者引入优化的解码后端，支持多种特性。
Prologue Fusion Support in Inductor：通过融合操作前的操作到 matmul 内核来优化矩阵乘法性能。