AWS宣布Amazon EC2 P5实例全面上市，适用于AI/ML和HPC工作负载

AWS近日宣布，基于最新NVIDIA H100 Tensor Core GPU的Amazon EC2 P5实例正式上线（GA），适用于需要高性能和可扩展性的AI/ML和HPC工作负载。此次发布是对之前基础设施开发的公告的后续。

Amazon EC2 P5实例是AWS与NVIDIA长期合作的成果，是第11代面向视觉计算、AI和高性能计算（HPC）集群的实例。这些实例配备了：

AWS声称，与上一代基于GPU的实例相比，P5实例可以将训练时间缩短6倍（从几天缩短至几小时），并将训练成本降低40%。

P5实例适用于：

P5实例可以部署在称为EC2 UltraClusters的超大规模集群中。这些集群结合了高性能计算、高级网络和存储能力，每个UltraCluster都相当于一个强大的超级计算机，允许用户在多个互连系统上执行复杂的AI训练和分布式HPC工作负载。

NVIDIA加速计算产品总监Dave Salvator表示：

客户可以运行需要计算节点之间高水平通信的大规模应用；P5实例支持由AWS EFA驱动的petabit级非阻塞网络，为Amazon EC2实例提供3200 Gbps的网络接口。

nOps.io的国际总经理Satish Bora评论道：

这看起来像是一个实例中的小型数据中心；多么强大的力量。

AWS的竞争对手微软和谷歌也提供了类似的AI/ML和HPC工作负载产品。例如：

微软最近发布了Azure Managed Lustre的GA版本，EC2 UltraClusters使用了基于Lustre文件系统的Amazon FSx for Lustre。
微软还发布了适用于HPC工作负载的Azure HBv4和HX系列虚拟机。
谷歌发布了为高性能计算优化的Compute Engine C3机器系列。

Amazon EC2 P5实例目前在美国东部（弗吉尼亚北部）和美国西部（俄勒冈）区域可用，定价详情可在EC2定价页面查看。