AWS宣布搭载NVIDIA H100 Tensor Core GPU的EC2 P5e实例全面上市

Amazon EC2 P5e 实例正式发布

Amazon Web Services (AWS) 正式推出了由 NVIDIA H100 Tensor Core GPU 驱动的 Amazon EC2 P5e 实例,旨在增强其在人工智能(AI)、机器学习(ML)和高性能计算(HPC)应用中的计算基础设施。

性能提升与关键特性

根据 AWS 的介绍,EC2 P5e 实例在性能、成本效益和扩展性方面较其前身 EC2 P5 实例有显著提升。P5e 实例配备了 8 个 H200 GPU,提供了更大的 GPU 内存和更高的带宽。此外,P5e 实例支持高达 3,200 Gbps 的网络连接,采用第二代 EFA 技术,并部署在 Amazon EC2 UltraClusters 中,以实现低延迟的大规模处理。

应用场景

P5e 实例适用于多种高级应用场景,包括:

  • 大语言模型(LLM)训练和推理,如 OpenAI 的 GPTGoogle 的 BERT
  • 高性能模拟,如天气预报、基因组学研究和流体动力学建模。

技术优势

AWS 机器学习博客指出,P5e 实例中的 H200 GPU 具有更高的内存带宽,能够更快地获取和处理内存中的数据,从而减少推理延迟。这对于实时应用(如对话式 AI 系统)至关重要,因为用户期望近乎即时的响应。更高的内存带宽还支持更高的吞吐量,使 GPU 能够每秒处理更多的推理任务。

支持工具与服务

用户在启动 P5 实例时,可以利用 AWS Deep Learning AMIs (DLAMI) 来支持 P5 实例。DLAMI 为 ML 从业者和研究人员提供了必要的基础设施和工具,以便在预配置的环境中快速开发可扩展、安全的分布式 ML 应用程序。用户还可以使用 AWS Deep Learning Containers 在 P5 实例上运行容器化应用,这些容器库专为 Amazon Elastic Container Service (Amazon ECS) 或 Amazon Elastic Kubernetes Service (Amazon EKS) 设计。

竞争产品

Azure 和 Google Cloud 也提供了类似的高性能计算实例。Azure 提供了配备 NVIDIA Tensor Core GPU 的 NDv5 系列 虚拟机,而 Google Cloud 则提供了由 NVIDIA GPU 驱动的 A3 实例

行业观点

Tata Communications 的云解决方案总监 Sanjay Siboo推特 上表示:

GPU 对 AWS、Google 和 OpenAI 等大型软件公司变得越来越重要,因为生成式 AI 的需求持续增长。

可用性与区域

目前,p5e.48xlarge 大小的 P5e 实例已在美国东部(俄亥俄州)AWS 区域通过 EC2 Capacity Blocks for ML 提供。

阅读 94
0 条评论