从 Hadoop 到 Kubernetes：Pinterest 在 AWS EKS 上的可扩展 Spark 架构

发布于 2025-07-28

主要观点：Pinterest 用 Kubernetes 原生系统 Moka 取代了基于 Hadoop 的数据平台，Moka 能实现容器化作业隔离、支持 ARM 实例、通过 YuniKorn 改进调度并简化部署，还能降低基础设施成本和提高数据处理工作效率。
关键信息：

从 Hadoop 架构转向 Spark-on-Kubernetes 模型，Kubernetes 支持容器编排和安全，能在混合实例类型上部署。
Moka 带来成本和效率提升，可整合不同安全要求的工作负载到共享集群，支持 ARM 实例和机会性自动缩放。
更换 Hadoop 需重新设计与作业提交、调度等相关的组件，开发新服务如 Archer，采用 YuniKorn 进行调度等。
Moka 初始设计中，Spinner 分解工作流为作业提交，Archer 处理作业排队等，利用 Spark Operator 执行 Spark 并暴露 CRD，YuniKorn 进行队列调度等。
重要细节：
链接介绍相关内容。
Hadoop、Spark、Kubernetes等相关技术介绍。
ARM-based instances相关信息。
各系统如 Spinner、Archer、Spark Operator、YuniKorn 等的功能和作用细节。
作业执行过程中各组件的协作，如 SparkSQL 连接 Hive Metastore 等。

阅读 140