AWS宣布Amazon EC2 P5实例正式上线
AWS近日宣布,基于最新NVIDIA H100 Tensor Core GPU的Amazon EC2 P5实例正式上线(GA),适用于需要高性能和可扩展性的AI/ML和HPC工作负载。此次发布是对之前基础设施开发的公告的后续。
P5实例的技术规格
Amazon EC2 P5实例是AWS与NVIDIA长期合作的成果,是第11代面向视觉计算、AI和高性能计算(HPC)集群的实例。这些实例配备了:
- 8个NVIDIA H100 Tensor Core GPU,拥有640 GB的高带宽GPU内存。
- 第三代AMD EPYC处理器,提供2 TB的系统内存。
- 30 TB的本地NVMe存储。
- 3200 Gbps的聚合网络带宽,采用第二代弹性结构适配器(EFA)技术,支持GPUDirect RDMA,绕过CPU实现低延迟和高效的扩展性能。
性能与成本优势
AWS声称,与上一代基于GPU的实例相比,P5实例可以将训练时间缩短6倍(从几天缩短至几小时),并将训练成本降低40%。
应用场景
P5实例适用于:
- 大型语言模型(LLM)和计算机视觉模型的训练和推理,支持生成式AI应用,如问答、代码生成、视频和图像生成以及语音识别。
- 高性能计算工作负载,如药物发现、地震分析、天气预报和金融建模。
EC2 UltraClusters
P5实例可以部署在称为EC2 UltraClusters的超大规模集群中。这些集群结合了高性能计算、高级网络和存储能力,每个UltraCluster都相当于一个强大的超级计算机,允许用户在多个互连系统上执行复杂的AI训练和分布式HPC工作负载。
行业专家评论
NVIDIA加速计算产品总监Dave Salvator表示:
客户可以运行需要计算节点之间高水平通信的大规模应用;P5实例支持由AWS EFA驱动的petabit级非阻塞网络,为Amazon EC2实例提供3200 Gbps的网络接口。
nOps.io的国际总经理Satish Bora评论道:
这看起来像是一个实例中的小型数据中心;多么强大的力量。
竞争对手的类似产品
AWS的竞争对手微软和谷歌也提供了类似的AI/ML和HPC工作负载产品。例如:
- 微软最近发布了Azure Managed Lustre的GA版本,EC2 UltraClusters使用了基于Lustre文件系统的Amazon FSx for Lustre。
- 微软还发布了适用于HPC工作负载的Azure HBv4和HX系列虚拟机。
- 谷歌发布了为高性能计算优化的Compute Engine C3机器系列。
可用区域和定价
Amazon EC2 P5实例目前在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域可用,定价详情可在EC2定价页面查看。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。