从 Hadoop 到 Kubernetes:Pinterest 在 AWS EKS 上的可扩展 Spark 架构

主要观点:Pinterest 用 Kubernetes 原生系统 Moka 取代了基于 Hadoop 的数据平台,Moka 能实现容器化作业隔离、支持 ARM 实例、通过 YuniKorn 改进调度并简化部署,还能降低基础设施成本和提高数据处理工作效率。
关键信息

  • 从 Hadoop 架构转向 Spark-on-Kubernetes 模型,Kubernetes 支持容器编排和安全,能在混合实例类型上部署。
  • Moka 带来成本和效率提升,可整合不同安全要求的工作负载到共享集群,支持 ARM 实例和机会性自动缩放。
  • 更换 Hadoop 需重新设计与作业提交、调度等相关的组件,开发新服务如 Archer,采用 YuniKorn 进行调度等。
  • Moka 初始设计中,Spinner 分解工作流为作业提交,Archer 处理作业排队等,利用 Spark Operator 执行 Spark 并暴露 CRD,YuniKorn 进行队列调度等。
    重要细节
  • 链接介绍相关内容。
  • HadoopSparkKubernetes等相关技术介绍。
  • ARM-based instances相关信息。
  • 各系统如 Spinner、Archer、Spark Operator、YuniKorn 等的功能和作用细节。
  • 作业执行过程中各组件的协作,如 SparkSQL 连接 Hive Metastore 等。
阅读 61
0 条评论