虚拟化与加速相结合:为人工智能工作负载提供动力

主要观点:人工智能已从流行语成为商业驱动力,其发展带来基础设施需求,多数企业已有支持人工智能的核心基础设施,可通过重新利用和扩展现有基础设施来处理人工智能工作负载,以安全、可扩展且经济高效的方式实现。

关键信息:

  • 人工智能在各行业广泛应用,如聊天机器人、欺诈检测等,训练大型模型和运行实时推理管道需要大量计算、带宽和编排。
  • 多数企业数据中心已有思科 UCS 服务器、思科网络交换机和 VMware 虚拟化等核心组件,可用于人工智能和高性能计算(HPC)环境。
  • 思科 UCS 服务器可支持高密度计算、高速内存和 GPU 加速,新的 C 系列和 B 系列模型专为人工智能设计,通过 Cisco UCS Manager 可快速部署人工智能主机。
  • 思科网络在人工智能中也很重要,需快速可靠地传输大数据,Cisco Nexus 9000 系列交换机可支持无损以太网等技术,leaf-spine 架构等可提高网络性能。
  • VMware 的 vSphere 堆栈是虚拟化的支柱,可通过直通(DirectPath I/O)和 vGPU 两种方式访问 GPU,为不同团队提供隔离安全的环境,VMware Tanzu 可将 Kubernetes 引入。
  • 大多数企业人工智能工作负载可利用现有设施进行战略升级,而非追求 exotic 硬件和软件,同时要考虑数据安全和合规。
  • 这种架构易于扩展,可随着人工智能采用的增长而逐步扩展 HPC 集群,无需锁定在僵化设计中或支付云闲置资源费用。

重要细节:

  • 以 NVIDIA A100、L40 或 H100 等高端 GPU 为例说明 UCS 服务器的能力。
  • 介绍网络在人工智能中的作用,如大数据传输和支持分布式 GPU 训练。
  • 详细说明 VMware 两种 GPU 访问模式的特点和应用场景。
  • 提及数据安全方面的措施,如 VMware NSX-T 的微分段等。
  • 举例说明随着需求增长可如何逐步扩展基础设施。
阅读 22
0 条评论