Meta 大规模训练大型语言模型的基础设施建设
Meta 最近发布了一篇文章,详细介绍了其如何构建研究超级集群(RSC)基础设施,以推动实时语音翻译、语言处理、计算机视觉和增强现实(AR)等领域的进展。大规模模型训练在增加 GPU 数量时面临显著挑战,Meta 强调需要通过严格的测试、质量控制措施以及自动化的故障检测和修复来“最小化硬件故障中断训练任务的可能性”。Meta 专注于“减少重新调度的开销和快速训练重新初始化”,以便从这些事件中快速恢复。此外,Meta 指出“部分 GPU 之间的数据交换速度慢会导致整个任务变慢”,因此强调需要“强大且高速的网络基础设施以及高效的数据传输协议和算法”。
强大的计算系统需求
Meta 强调,推动先进 AI 技术的发展需要能够每秒执行千万亿次操作的强大计算系统。为了实现这一目标,Meta 扩展了其 AI 基础设施,构建了两个 24,000 GPU 的集群。Meta 将RoCE(基于融合以太网的远程直接内存访问)和InfiniBand确定为满足其需求的两大主要选择,同时承认每种选择都有其权衡。
RoCE 与 InfiniBand 的选择
Meta 的决定基于其对这两种技术的经验。虽然 Meta 在过去四年中构建了 RoCE 集群,但其最大的集群仅支持 4,000 GPU,无法满足当前需求。相反,Meta 之前构建的 InfiniBand 研究集群最多支持 16,000 GPU,但这些集群并未完全集成到生产环境中,也未针对最新的 GPU 和网络技术进行优化。为了解决这些挑战,Meta 决定构建两个 24,000 GPU 的集群,一个使用 RoCE,另一个使用 InfiniBand,旨在从这两种实现中获取操作经验。
性能优化与开源承诺
Meta 报告称,尽管网络技术存在差异,但它成功调整了这两个集群,使其在 GenAI 工作负载上表现出等效的性能。Meta 重申其对开放计算和开源原则的承诺,使用Grand Teton、OpenRack和PyTorch构建这些集群,进一步推动行业内的开放式创新。
未来扩展计划
展望未来,Meta 计划到 2024 年底将基础设施扩展到 350,000 个 NVIDIA H100 GPU,预计总计算能力相当于近 600,000 个 H100。
基础设施架构
Meta 的 RSC AI 基础设施架构包括网络、计算、存储和性能优化等关键组件。在网络层,Meta 实现了两种不同的解决方案:一个集群使用基于Arista 7800的 RoCE 网络结构,另一个集群使用NVIDIA Quantum2 InfiniBand结构。计算方面,Meta 使用其自主开发的Grand Teton平台。存储方面,Meta 使用自研的Linux Filesystem in Userspace (FUSE) API,并优化了其Tectonic 分布式存储解决方案以支持闪存介质。性能优化方面,Meta 结合NVIDIA Collective Communications Library (NCCL)优化了网络路由策略,以实现最佳网络利用率。
RSC 支持的项目
RSC 支持多个项目,包括LlaMA、No Language Left Behind (NLLB)、通用语音翻译和定理证明等。
环境影响与可持续发展
随着公司公布其雄心勃勃的 AI 基础设施扩展计划,大规模 AI 训练的环境影响问题也日益受到关注。研究表明,训练大型语言模型的能耗显著增加,AI 模型规模每 3.4 个月翻一番,可能导致巨大的碳足迹。行业专家建议,企业可以在硬件层面投资于能效更高的 GPU,以平衡 AI 雄心与环境责任。
参考资料
了解更多关于扩展 LLM 工作负载、基础设施成本优化、ML 训练基础设施以及分布式基础设施上的 LLM 训练的内容,请参考相关资源。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。