测试和运行大型 GPU 集群以训练生成式 AI 模型的从业者指南

主要观点:训练生成式 AI 模型需昂贵的尖端硬件集群,包括 H100 GPU 及快速存储等,虽有云服务提供,但资本投入大,且集群组件易有问题,需进行验收测试以保证性能和可靠性。
关键信息

  • 硬件集群包含多种昂贵组件,需多网络拓扑连接。
  • 集群常存在组件组装、配置错误及到货即坏等情况,易导致频繁故障。
  • 验收测试过程包括准备配置、GPU 验证、NVLink 和 NVSwitch 验证、网络验证、存储验证、模型构建及可观测性等阶段。
  • 各阶段使用多种工具进行测试,如 NVIDIA 相关工具、fio、iperf3 等。
  • 最后通过运行参考任务验证集群性能,持续监测硬件故障。
    重要细节
  • 在 GPU 验证中,使用 DCGM Diagnostics 和 gpu-burn 进行压力测试,检查 GPU 类型、数量及性能等。
  • 网络验证使用 ibping、ib_read_bw、ib_write_bw 等工具测试 Infiniband 网络,使用 NCCL 测试验证 GPUDirect RDMA 等。
  • 存储验证使用 fio 测量存储性能,包括不同场景下的读写速度等。
  • 模型构建阶段使用 PyTorch 的 Fully Sharded Data Parallel 训练模型并监控多种性能指标。
  • 可观测性使用 Telegraf 收集系统指标,包括集群级和主机级的各种信息,如 GPU 温度、功率等。
阅读 20
0 条评论