主要观点:
- 2018 年 AI 软件存在系统碎片化问题,众多框架各自发明不同的“AI 图”和“操作”,生态系统分裂。
- 作者在谷歌帮助扩展 TPU 时意识到需更好的编译器基础,于是诞生了 MLIR,它是模块化、可扩展的编译器基础设施,旨在带来秩序。
- MLIR 最初作为谷歌内部项目发展,后开源并在各领域应用,成为许多主要 AI 项目的基础,但仍未实现 AI 计算的普及化。
- MLIR 被视为通用编译器基础设施,旨在允许特定领域的编译器,但在成为端到端 AI 解决方案的竞赛中未获胜,面临身份危机和竞争挑战。
- 从 MLIR 中吸取的教训包括过早扩展导致设计决策混乱、管理上难以引导众多工程师、基础设施要有明确目标等。
- 硬件公司难以构建 AI 软件,只有 NVIDIA 的 CUDA 成功,其他公司面临竞争劣势和激励问题。
关键信息:
- 2018 年的 AI 软件框架如 TensorFlow 等列表不断增长且各自为政。
- Jeff Dean 鼓励作者构建新编译器统一混乱,MLIR 由此诞生。
- MLIR 可跨硬件平台、软件框架和机器学习需求进行扩展,具有模块化特点。
- MLIR 在谷歌内部及其他领域应用广泛,后开源并取得全球影响力。
- 竞争导致 MLIR 面临身份危机,各公司基于共享 dialects 构建专有 AI 堆栈。
- MLIR 吸取的教训包括早期扩展问题、管理引导困难、基础设施目标明确性等。
- 硬件公司构建 AI 软件困难,CUDA 因其垂直整合等策略成功。
重要细节:
- MLIR 的“dialects”可分离特定领域关注与编译器核心基础设施。
- 谷歌内部各团队如自定义 ASIC 团队等利用 MLIR 进行优化。
- MLIR 开源后通过“open design meetings”促进外部贡献。
- 早期 MLIR 的 AI dialect 设计未考虑 GenAI 需求。
- 核心 MLIR 开发者分散导致沟通和协调问题。
- 新的 MLIR 治理结构有助于引导其发展。
- MLIR 对通用编译器基础设施有贡献但未实现端到端 AI 解决方案。
- 硬件公司构建 AI 软件受 NVIDIA 竞争优势影响。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。