使用 NVIDIA DCGM 的机器学习工作负载的云成本优化

发布于 2025-05-08

主要观点：在云环境中运行机器学习工作负载时，若忽视资源编排会导致成本过高，本文介绍了高级成本管理策略。
关键信息：

详细阐述了高级 ETL 管理（使用 SQL 分区和触发器、基于数据量的动态 ETL 触发）、高级时间序列成本预测（SARIMA 与自定义季节性、增强型 Prophet 与容量和假期）、GPU 配置（NVIDIA DCGM 和 MIG）、AI 服务自动缩放（Kubernetes 自定义指标、Spot 实例）等方面的策略及代码示例。
实施这些策略后，每月云账单降低了 48%，包括 ETL 成本降低 44%、整体云支出减少 48%、GPU 费用降低 30%、训练开销降低 60%等。
重要细节：
在 ETL 管理中，通过分区加速成本分析，基于数据量的触发避免盲目调度。
时间序列预测中，针对成本数据集的季节性调整 SARIMA 和 Prophet 模型。
GPU 配置方面，利用 NVIDIA DCGM 监控和 MIG 分区实现资源优化。
AI 服务自动缩放可基于自定义 GPU 或内存指标进行扩展和收缩，还可使用 Spot 实例进行成本敏感的任务。

阅读 55