声明:本文翻译自微软全球官方博客,ND H200 v5 系列虚拟机目前只在 Microsoft Azure 海外版上发布。
随着人工智能领域的高速发展,企业对于可扩展和高性能基础设施的需求呈指数级增长。客户需要 Azure AI 基础设施来开发智能驱动的创新解决方案,为满足客户的需求,我们推出了基于 Azure ND H200 v5 系列虚拟机(VM)的新型云端人工智能超级计算集群。这些虚拟机现已在 Microsoft Azure 海外版上正式发布,专为处理复杂的高级人工智能工作负载(从基础模型训练到生成推理)量身定制。ND H200 v5 虚拟机的规模、效率和增强性能,推动了客户对于微软人工智能服务(如 Azure 机器学习和 Azure OpenAI 服务(国际版))的采用。
H200 超级计算集群的设计还能更高效地管理 GPU 内存的模型权重、键值缓存和批处理大小,这些因素都会直接影响基于大语言模型(LLM)的生成式人工智能推理工作负载中的吞吐量、延迟和成本效益。ND H200 v5 VM 拥有更大的高带宽内存容量,可以支持更高的批处理大小。与 ND H100 v5 系列相比,ND H200 v5 VM 可在推理工作负载中实现更高的 GPU 利用率和吞吐量。在早期测试中,我们观察到在运行 LLAMA 3.1 405B 模型的推理工作负载中,ND H200 v5 虚拟机的吞吐量比 ND H100 v5 系列提升高达 35%。
Azure ND H200 v5 虚拟机采用微软的系统设计方法,以提高效率和性能。特别要说明的是,它还解决了 GPU 原始计算能力增长速度远快于附带内存和内存带宽的差距问题。相比上一代 Azure ND H100 v5 虚拟机,Azure ND H200 v5 系列虚拟机的高带宽内存(HBM)增加了 76%,141 GB 的高速内存和 4.8 TB/秒的内存带宽,可以处理更大的数据集和更复杂的模型。高带宽内存的增加,使 GPU 能够更快地访问模型参数,从而有助于降低整体应用延迟,这对于交互式代理等实时应用,至关重要。
ND H200 v5 系列以单个虚拟机和 8 个 NVIDIA H200 Tensor Core GPU 开头,与 900 GB/s NVLink 互连。 基于 ND H200 v5 的部署可以纵向扩展到成千上万个 GPU,每个虚拟机的互连带宽为 3.2Tb/秒。VM 内的每个 GPU 都具备其自己专用的、与拓扑无关的 400 Gb/秒 NVIDIA Quantum-2 CX7 InfiniBand 连接。 这些连接在占用同一虚拟机规模集的 VM 之间自动配置,并且支持 GPUDirect RDMA。
ND H200 v5 虚拟机已预先集成 Azure 批处理、Azure Kubernetes 服务、Azure OpenAI 服务(国际版)和 Azure 机器学习,可帮助企业快速上手。您可以扫描下方二维码,了解有关全新 Azure ND H200 v5 虚拟机的更多参数信息。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。