NVIDIA 推出下一代 GPU 架构 Blackwell
NVIDIA 最近宣布了其下一代 GPU 架构 Blackwell,这是迄今为止最大的 GPU,拥有超过 2000 亿个晶体管,能够将大型语言模型(LLM)的训练速度提升至上一代硬件的 4 倍。
主要发布内容
- 发布平台:NVIDIA 创始人兼 CEO 黄仁勋在公司的 GTC AI 大会上宣布了这一消息。
- 核心架构:Blackwell 架构由两个 GPU 芯片组成,作为一个整体单元运行,支持 20 petaFLOPS 的计算能力,是“单芯片上最高的计算性能”。
技术亮点:
- 新一代 Transformer Engine 和新的数值精度,显著提升了 LLM 的性能。
- 首次支持可信执行环境(TEE),为敏感数据提供保护。
新产品:
- GB200 Grace Blackwell 超级芯片:结合了两个 Blackwell 核心和一个 Grace CPU。
- GB200 NVL72 计算集群:包含 36 个 GB200 超级芯片,提供 1.4 exaflops 的计算能力。
黄仁勋的观点
黄仁勋指出,大型模型和数据集需要更多的计算加速来训练。他表示:
我们需要更大的模型,不仅使用互联网上的文本数据,还将使用文本、图像、图表等多模态数据进行训练。这将增加模型的大小和训练数据的量,因此我们需要构建更大的 GPU。
命名与历史背景
Blackwell 架构以科学家和数学家 David Harold Blackwell 命名,他在博弈论、统计学和概率论方面做出了重要贡献。此前,NVIDIA 的 Hopper 架构和 Grace 超级芯片也以科学先驱命名。
革命性特性
Blackwell 架构包括多项“革命性”特性:
- 第五代 NVLink:支持多达 576 个 GPU 之间的通信,吞吐量达 1.8TB/s。
- RAS 引擎:提高了诊断能力,帮助识别硬件故障。
- 解压缩引擎:支持多种格式(如 Snappy、Deflate 和 LZ4),加速了包括 Apache Spark 在内的多种数据库技术的性能。
社区反响
在 Hacker News 的讨论中,有用户指出:
NVIDIA 正在向更高层次发展,他们不仅在做更大的事情,还在构建“LLM 的 Docker”——NIM。这将是一个容器系统,用户可以下载/购买 NIM,并轻松部署在他们的硬件上。这将对所有 AI 初创公司产生有趣的影响。
应用领域
Blackwell 架构将应用于多个领域,包括:
- DRIVE Thor:用于自动驾驶车辆的计算平台。
- Jetson Thor:专为机器人设计的系统级芯片,将支持公司人形机器人项目 GR00T 开发的 AI 模型。
总结
NVIDIA 的 Blackwell 架构标志着 GPU 技术的重大进步,不仅在计算性能上达到新高度,还通过多项创新特性提升了 LLM 训练和数据处理效率。这一架构的广泛应用将进一步推动自动驾驶、机器人等领域的 AI 技术发展。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。