主要观点:Pinterest 用 Kubernetes 原生系统 Moka 取代了基于 Hadoop 的数据平台,Moka 能实现容器化作业隔离、支持 ARM 实例、通过 YuniKorn 改进调度并简化部署,还能降低基础设施成本和提高数据处理工作效率。
关键信息:
- 从 Hadoop 架构转向 Spark-on-Kubernetes 模型,Kubernetes 支持容器编排和安全,能在混合实例类型上部署。
- Moka 带来成本和效率提升,可整合不同安全要求的工作负载到共享集群,支持 ARM 实例和机会性自动缩放。
- 更换 Hadoop 需重新设计与作业提交、调度等相关的组件,开发新服务如 Archer,采用 YuniKorn 进行调度等。
- Moka 初始设计中,Spinner 分解工作流为作业提交,Archer 处理作业排队等,利用 Spark Operator 执行 Spark 并暴露 CRD,YuniKorn 进行队列调度等。
重要细节: - 链接介绍相关内容。
- Hadoop、Spark、Kubernetes等相关技术介绍。
- ARM-based instances相关信息。
- 各系统如 Spinner、Archer、Spark Operator、YuniKorn 等的功能和作用细节。
- 作业执行过程中各组件的协作,如 SparkSQL 连接 Hive Metastore 等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。