亚马逊 EKS 通过支持每个集群 100K 个节点,实现了超大规模的 AI/ML 工作负载。

主要观点:亚马逊网络服务(Amazon Web Services)的亚马逊弹性容器服务(Amazon Elastic Kubernetes Service,EKS)宣布在容器编排方面取得重大突破,支持最多 10 万个节点的集群,比之前的限制增加了 10 倍,可支持大量人工智能和机器学习工作负载。
关键信息

  • 最先进的 AI 模型需大量计算加速器,单一大规模集群对性能最优,运行在单集群有降低计算成本、简化操作等好处。
  • AWS 通过多项架构突破实现 10 万节点能力,包括对 etcd 等核心组件的重新设计,将 etcd 的共识后端从 raft 实现转移到 journal,将 etcd 后端数据库完全移至内存存储 tmpfs,对 API 服务器等进行广泛调优等。
  • 在网络方面,配置 Amazon VPC CNI 以提高网络操作效率,为加速工作负载启用额外网络卡的 pod ENIs。容器镜像管理采用 Seekable OCI 快速拉取技术。
  • AWS 进行了大量模拟真实超大规模 AI/ML 场景的测试,测试涵盖多种工作负载,节点生命周期测试表现良好,性能指标令人印象深刻。
    重要细节
  • 可支持多达 160 万 AWS Trainium 芯片或 80 万 NVIDIA GPU。
  • 工程团队对 API 服务器和关键 webhook 进行了精细优化,如请求超时、重试策略等。
  • Karpenter 能在 50 分钟内启动 10 万个 Amazon EC2 实例,集群漂移操作约 4 小时完成。
  • 集群包含超 1000 万个 Kubernetes 对象,etcd 数据库大小达 32GB,API 延迟符合 SLO 目标。
  • 此进展使 AWS 在 Kubernetes 集群规模方面领先于主要云竞争对手,如 Google Kubernetes Engine 支持每个标准集群最多 15000 个节点,Microsoft Azure Kubernetes Service 支持每个集群最多 5000 个节点,且 AWS 的超大规模集群是标准产品,符合全 Kubernetes 一致性。
阅读 190
0 条评论