Allegro 在 GCP 大数据管道上实现显著成本优化
Allegro 在 Google Cloud Dataflow 上运行的多个数据管道中,成功实现了显著的成本节约。公司通过评估资源利用率、优化管道配置、调整输入输出数据集以及改进存储策略,持续提升数据工作流的成本效益。
成本优化的关键步骤
Allegro 的高级软件工程师 Jakub Demianowski 分享了一个案例研究,详细介绍了如何通过优化单个管道实现约 60% 的成本节约。优化工作主要集中在以下三个关键领域:
计算资源利用率
- 分析 CPU 利用率指标,发现平均利用率为 85%,表明 CPU 并未被低效利用。
- 内存利用率仅为 50%,因此调整了计算实例类型以优化 CPU 与内存的比例,实现了 10% 的成本节约。
虚拟机类型的性价比
- 基于 Google Cloud 提供的 CoreMark 评分,选择 t2d-standard-8 虚拟机类型,进一步提升了成本效益。
- 使用原始数据集的 3% 进行测试,实现了 32% 的成本降低。
虚拟机存储类型
- 比较使用 HDD 和 SSD 的虚拟机家族,发现使用 SSD 更经济。
作业配置优化
- 评估了 Dataflow Shuffle 服务的成本,发现关闭该服务可大幅降低开销,并使工作节点充分利用可用内存。
优化成果
通过上述优化步骤,Demianowski 估计该管道的年度运行成本从 127,000 美元降至约 48,000 美元。他总结道:
我们在未修改处理代码的情况下取得了优异成果。推测性方法效果显著。虽然可能仍有优化空间,但在给定的时间内,这些结果已属一流,无需进一步优化环境和配置。
工程师的启示
Demianowski 强调,每个数据管道都不同,工程师需要系统性地评估和探索多种途径,以降低运营成本,并通过实证评估相关开销。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。