AWS宣布Amazon EC2 P5实例全面上市,适用于AI/ML和HPC工作负载

AWS宣布Amazon EC2 P5实例正式上线

AWS近日宣布,基于最新NVIDIA H100 Tensor Core GPU的Amazon EC2 P5实例正式上线(GA),适用于需要高性能和可扩展性的AI/ML和HPC工作负载。此次发布是对之前基础设施开发的公告的后续。

P5实例的技术规格

Amazon EC2 P5实例是AWS与NVIDIA长期合作的成果,是第11代面向视觉计算、AI和高性能计算(HPC)集群的实例。这些实例配备了:

  • 8个NVIDIA H100 Tensor Core GPU,拥有640 GB的高带宽GPU内存。
  • 第三代AMD EPYC处理器,提供2 TB的系统内存。
  • 30 TB的本地NVMe存储
  • 3200 Gbps的聚合网络带宽,采用第二代弹性结构适配器(EFA)技术,支持GPUDirect RDMA,绕过CPU实现低延迟和高效的扩展性能。

性能与成本优势

AWS声称,与上一代基于GPU的实例相比,P5实例可以将训练时间缩短6倍(从几天缩短至几小时),并将训练成本降低40%。

应用场景

P5实例适用于:

  • 大型语言模型(LLM)计算机视觉模型的训练和推理,支持生成式AI应用,如问答、代码生成、视频和图像生成以及语音识别。
  • 高性能计算工作负载,如药物发现、地震分析、天气预报和金融建模。

EC2 UltraClusters

P5实例可以部署在称为EC2 UltraClusters的超大规模集群中。这些集群结合了高性能计算、高级网络和存储能力,每个UltraCluster都相当于一个强大的超级计算机,允许用户在多个互连系统上执行复杂的AI训练和分布式HPC工作负载。

行业专家评论

NVIDIA加速计算产品总监Dave Salvator表示:

客户可以运行需要计算节点之间高水平通信的大规模应用;P5实例支持由AWS EFA驱动的petabit级非阻塞网络,为Amazon EC2实例提供3200 Gbps的网络接口。

nOps.io的国际总经理Satish Bora评论道:

这看起来像是一个实例中的小型数据中心;多么强大的力量。

竞争对手的类似产品

AWS的竞争对手微软和谷歌也提供了类似的AI/ML和HPC工作负载产品。例如:

可用区域和定价

Amazon EC2 P5实例目前在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域可用,定价详情可在EC2定价页面查看。

阅读 48
0 条评论