测试和运行大型 GPU 集群以训练生成式 AI 模型的从业者指南

发布于 2025-07-24

主要观点：训练生成式 AI 模型需昂贵的尖端硬件集群，包括 H100 GPU 及快速存储等，虽有云服务提供，但资本投入大，且集群组件易有问题，需进行验收测试以保证性能和可靠性。
关键信息：

硬件集群包含多种昂贵组件，需多网络拓扑连接。
集群常存在组件组装、配置错误及到货即坏等情况，易导致频繁故障。
验收测试过程包括准备配置、GPU 验证、NVLink 和 NVSwitch 验证、网络验证、存储验证、模型构建及可观测性等阶段。
各阶段使用多种工具进行测试，如 NVIDIA 相关工具、fio、iperf3 等。
最后通过运行参考任务验证集群性能，持续监测硬件故障。
重要细节：
在 GPU 验证中，使用 DCGM Diagnostics 和 gpu-burn 进行压力测试，检查 GPU 类型、数量及性能等。
网络验证使用 ibping、ib_read_bw、ib_write_bw 等工具测试 Infiniband 网络，使用 NCCL 测试验证 GPUDirect RDMA 等。
存储验证使用 fio 测量存储性能，包括不同场景下的读写速度等。
模型构建阶段使用 PyTorch 的 Fully Sharded Data Parallel 训练模型并监控多种性能指标。
可观测性使用 Telegraf 收集系统指标，包括集群级和主机级的各种信息，如 GPU 温度、功率等。

阅读 119