主要观点:训练生成式 AI 模型需昂贵的尖端硬件集群,包括 H100 GPU 及快速存储等,虽有云服务提供,但资本投入大,且集群组件易有问题,需进行验收测试以保证性能和可靠性。
关键信息:
- 硬件集群包含多种昂贵组件,需多网络拓扑连接。
- 集群常存在组件组装、配置错误及到货即坏等情况,易导致频繁故障。
- 验收测试过程包括准备配置、GPU 验证、NVLink 和 NVSwitch 验证、网络验证、存储验证、模型构建及可观测性等阶段。
- 各阶段使用多种工具进行测试,如 NVIDIA 相关工具、fio、iperf3 等。
- 最后通过运行参考任务验证集群性能,持续监测硬件故障。
重要细节: - 在 GPU 验证中,使用 DCGM Diagnostics 和 gpu-burn 进行压力测试,检查 GPU 类型、数量及性能等。
- 网络验证使用 ibping、ib_read_bw、ib_write_bw 等工具测试 Infiniband 网络,使用 NCCL 测试验证 GPUDirect RDMA 等。
- 存储验证使用 fio 测量存储性能,包括不同场景下的读写速度等。
- 模型构建阶段使用 PyTorch 的 Fully Sharded Data Parallel 训练模型并监控多种性能指标。
- 可观测性使用 Telegraf 收集系统指标,包括集群级和主机级的各种信息,如 GPU 温度、功率等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。