主要观点:亚马逊网络服务(Amazon Web Services)的亚马逊弹性容器服务(Amazon Elastic Kubernetes Service,EKS)宣布在容器编排方面取得重大突破,支持最多 10 万个节点的集群,比之前的限制增加了 10 倍,可支持大量人工智能和机器学习工作负载。
关键信息:
- 最先进的 AI 模型需大量计算加速器,单一大规模集群对性能最优,运行在单集群有降低计算成本、简化操作等好处。
- AWS 通过多项架构突破实现 10 万节点能力,包括对 etcd 等核心组件的重新设计,将 etcd 的共识后端从 raft 实现转移到 journal,将 etcd 后端数据库完全移至内存存储 tmpfs,对 API 服务器等进行广泛调优等。
- 在网络方面,配置 Amazon VPC CNI 以提高网络操作效率,为加速工作负载启用额外网络卡的 pod ENIs。容器镜像管理采用 Seekable OCI 快速拉取技术。
- AWS 进行了大量模拟真实超大规模 AI/ML 场景的测试,测试涵盖多种工作负载,节点生命周期测试表现良好,性能指标令人印象深刻。
重要细节: - 可支持多达 160 万 AWS Trainium 芯片或 80 万 NVIDIA GPU。
- 工程团队对 API 服务器和关键 webhook 进行了精细优化,如请求超时、重试策略等。
- Karpenter 能在 50 分钟内启动 10 万个 Amazon EC2 实例,集群漂移操作约 4 小时完成。
- 集群包含超 1000 万个 Kubernetes 对象,etcd 数据库大小达 32GB,API 延迟符合 SLO 目标。
- 此进展使 AWS 在 Kubernetes 集群规模方面领先于主要云竞争对手,如 Google Kubernetes Engine 支持每个标准集群最多 15000 个节点,Microsoft Azure Kubernetes Service 支持每个集群最多 5000 个节点,且 AWS 的超大规模集群是标准产品,符合全 Kubernetes 一致性。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。