Meta 发布两款新型 AI 计算集群
Meta 最近宣布设计了两款新型 AI 计算集群,每款集群包含 24,576 个 GPU。这些集群基于 Meta 的 Grand Teton 硬件平台,其中一款集群目前用于训练下一代 Llama 3 模型。
集群设计与用途
这两款集群旨在支持 Meta 的生成式 AI 项目。它们在网络架构上有所不同:
- Llama 3 集群:使用基于融合以太网的远程直接内存访问(RDMA over Converged Ethernet, RoCE)。
- 另一款集群:使用 NVIDIA 的 Quantum2 InfiniBand 网络技术。
存储层基于 Meta 自主研发的 Tectonic 文件系统,该系统支持同步 I/O,能够处理数千个 GPU 的检查点。
Meta 的 AI 基础设施规划
Meta 表示,这两款 AI 训练集群是其未来 AI 发展路线图的一部分。到 2024 年底,Meta 计划继续扩展其基础设施,目标是部署 350,000 个 NVIDIA H100 GPU,整体计算能力相当于近 600,000 个 H100。
Meta 的开源传统
Meta 在硬件平台和机架设计方面有开源的传统:
- 2021 年,Meta 开源了 ZionEX 集群。
- 2022 年,Meta 开源了 Grand Teton 平台及其机架设计,并将其贡献给 Open Compute Project(OCP),该组织由 Meta 于 2011 年创立。
- 2023 年,Meta 与 IBM 共同发起了 AI Alliance,旨在支持 AI 领域的开放创新和开放科学。
开发过程中的挑战与解决方案
在开发新型集群时,Meta 面临了调试大规模系统的挑战:
- 与 Hammerspace 合作,开发了用于存储系统的交互式调试工具。
- 开发了“分布式集体飞行记录器”,用于排查分布式训练中的问题。
Meta 还进行了多次模拟,以预测集群的节点间通信性能。然而,初始性能未达预期,带宽利用率波动较大。通过优化作业调度和网络路由,最终将带宽利用率提升至 90% 以上。
PyTorch 框架优化
Meta 在 PyTorch 框架上进行了优化,以更好地利用集群硬件:
- 支持 H100 GPU 的 8 位浮点运算,加速训练过程。
- 优化并行化算法和初始化瓶颈,将初始化时间从“有时几小时缩短到几分钟”。
行业竞争与硬件成本
在 Hacker News 的讨论中,一些用户指出,硬件成本使得在 AI 领域与“超大规模”公司(如 Meta)竞争变得困难。AI 开发者 Daniel Han-Chen 建议,通过数学和软件优化来缩小差距,因为模型训练仍然存在“黑魔法”,软件优化可以在一定程度上解决资本成本问题。
其他公司的 AI 计算集群
Meta 并不是唯一公布大规模计算集群的公司:
- 谷歌最近宣布了基于 Cloud TPU v5p 加速器硬件的 AI Hypercomputer。
- 微软 Azure 的 Eagle 超级计算机包含 14,400 个 NVIDIA H100 GPU,最近在 HPC Top500 中排名第三。
总结
Meta 的新 AI 计算集群是其 AI 基础设施扩展计划的重要组成部分,旨在支持其生成式 AI 项目。通过优化硬件、网络和软件,Meta 在提升训练效率和性能方面取得了显著进展。同时,Meta 的开源传统和对开放创新的支持,进一步推动了 AI 领域的发展。然而,硬件成本仍然是中小型 AI 开发者面临的重大挑战。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。