头图

声明:本文翻译自微软全球官方博客,ND H200 v5 系列虚拟机目前只在 Microsoft Azure 海外版上发布。

随着人工智能领域的高速发展,企业对于可扩展和高性能基础设施的需求呈指数级增长。客户需要 Azure AI 基础设施来开发智能驱动的创新解决方案,为满足客户的需求,我们推出了基于 Azure ND H200 v5 系列虚拟机(VM)的新型云端人工智能超级计算集群。这些虚拟机现已在 Microsoft Azure 海外版上正式发布,专为处理复杂的高级人工智能工作负载(从基础模型训练到生成推理)量身定制。ND H200 v5 虚拟机的规模、效率和增强性能,推动了客户对于微软人工智能服务(如 Azure 机器学习和 Azure OpenAI 服务(国际版))的采用。
图片
H200 超级计算集群的设计还能更高效地管理 GPU 内存的模型权重、键值缓存和批处理大小,这些因素都会直接影响基于大语言模型(LLM)的生成式人工智能推理工作负载中的吞吐量、延迟和成本效益。ND H200 v5 VM 拥有更大的高带宽内存容量,可以支持更高的批处理大小。与 ND H100 v5 系列相比,ND H200 v5 VM 可在推理工作负载中实现更高的 GPU 利用率和吞吐量。在早期测试中,我们观察到在运行 LLAMA 3.1 405B 模型的推理工作负载中,ND H200 v5 虚拟机的吞吐量比 ND H100 v5 系列提升高达 35%

Azure ND H200 v5 虚拟机采用微软的系统设计方法,以提高效率和性能。特别要说明的是,它还解决了 GPU 原始计算能力增长速度远快于附带内存和内存带宽的差距问题。相比上一代 Azure ND H100 v5 虚拟机,Azure ND H200 v5 系列虚拟机的高带宽内存(HBM)增加了 76%,141 GB 的高速内存和 4.8 TB/秒的内存带宽,可以处理更大的数据集和更复杂的模型。高带宽内存的增加,使 GPU 能够更快地访问模型参数,从而有助于降低整体应用延迟,这对于交互式代理等实时应用,至关重要。

ND H200 v5 系列以单个虚拟机和 8 个 NVIDIA H200 Tensor Core GPU 开头,与 900 GB/s NVLink 互连。 基于 ND H200 v5 的部署可以纵向扩展到成千上万个 GPU,每个虚拟机的互连带宽为 3.2Tb/秒。VM 内的每个 GPU 都具备其自己专用的、与拓扑无关的 400 Gb/秒 NVIDIA Quantum-2 CX7 InfiniBand 连接。 这些连接在占用同一虚拟机规模集的 VM 之间自动配置,并且支持 GPUDirect RDMA。

ND H200 v5 虚拟机已预先集成 Azure 批处理、Azure Kubernetes 服务、Azure OpenAI 服务(国际版)和 Azure 机器学习,可帮助企业快速上手。您可以扫描下方二维码,了解有关全新 Azure ND H200 v5 虚拟机的更多参数信息。
图片

图片


微软技术栈
418 声望994 粉丝

微软技术生态官方平台。予力众生,成就不凡!微软致力于用技术改变世界,助力企业实现数字化转型。