Allegro如何将GCP Dataflow管道的运行成本降低60%

Allegro 在 GCP 大数据管道上实现显著成本优化

Allegro 在 Google Cloud Dataflow 上运行的多个数据管道中,成功实现了显著的成本节约。公司通过评估资源利用率、优化管道配置、调整输入输出数据集以及改进存储策略,持续提升数据工作流的成本效益。

成本优化的关键步骤

Allegro 的高级软件工程师 Jakub Demianowski 分享了一个案例研究,详细介绍了如何通过优化单个管道实现约 60% 的成本节约。优化工作主要集中在以下三个关键领域:

  1. 计算资源利用率

    • 分析 CPU 利用率指标,发现平均利用率为 85%,表明 CPU 并未被低效利用。
    • 内存利用率仅为 50%,因此调整了计算实例类型以优化 CPU 与内存的比例,实现了 10% 的成本节约。
  2. 虚拟机类型的性价比

    • 基于 Google Cloud 提供的 CoreMark 评分,选择 t2d-standard-8 虚拟机类型,进一步提升了成本效益。
    • 使用原始数据集的 3% 进行测试,实现了 32% 的成本降低。
  3. 虚拟机存储类型

    • 比较使用 HDD 和 SSD 的虚拟机家族,发现使用 SSD 更经济。
  4. 作业配置优化

    • 评估了 Dataflow Shuffle 服务的成本,发现关闭该服务可大幅降低开销,并使工作节点充分利用可用内存。

优化成果

通过上述优化步骤,Demianowski 估计该管道的年度运行成本从 127,000 美元降至约 48,000 美元。他总结道:

我们在未修改处理代码的情况下取得了优异成果。推测性方法效果显著。虽然可能仍有优化空间,但在给定的时间内,这些结果已属一流,无需进一步优化环境和配置。

工程师的启示

Demianowski 强调,每个数据管道都不同,工程师需要系统性地评估和探索多种途径,以降低运营成本,并通过实证评估相关开销。

阅读 44
0 条评论