模块化：关于 MLIR 编译器基础设施怎么样？（民主化 AI 计算，第 8 部分） - SegmentFault 思否

模块化：关于 MLIR 编译器基础设施怎么样？（民主化 AI 计算，第 8 部分）

发布于 8 月 3 日

主要观点：

2018 年 AI 软件存在系统碎片化问题，众多框架各自发明不同的“AI 图”和“操作”，生态系统分裂。
作者在谷歌帮助扩展 TPU 时意识到需更好的编译器基础，于是诞生了 MLIR，它是模块化、可扩展的编译器基础设施，旨在带来秩序。
MLIR 最初作为谷歌内部项目发展，后开源并在各领域应用，成为许多主要 AI 项目的基础，但仍未实现 AI 计算的普及化。
MLIR 被视为通用编译器基础设施，旨在允许特定领域的编译器，但在成为端到端 AI 解决方案的竞赛中未获胜，面临身份危机和竞争挑战。
从 MLIR 中吸取的教训包括过早扩展导致设计决策混乱、管理上难以引导众多工程师、基础设施要有明确目标等。
硬件公司难以构建 AI 软件，只有 NVIDIA 的 CUDA 成功，其他公司面临竞争劣势和激励问题。

关键信息：

2018 年的 AI 软件框架如 TensorFlow 等列表不断增长且各自为政。
Jeff Dean 鼓励作者构建新编译器统一混乱，MLIR 由此诞生。
MLIR 可跨硬件平台、软件框架和机器学习需求进行扩展，具有模块化特点。
MLIR 在谷歌内部及其他领域应用广泛，后开源并取得全球影响力。
竞争导致 MLIR 面临身份危机，各公司基于共享 dialects 构建专有 AI 堆栈。
MLIR 吸取的教训包括早期扩展问题、管理引导困难、基础设施目标明确性等。
硬件公司构建 AI 软件困难，CUDA 因其垂直整合等策略成功。

重要细节：

MLIR 的“dialects”可分离特定领域关注与编译器核心基础设施。
谷歌内部各团队如自定义 ASIC 团队等利用 MLIR 进行优化。
MLIR 开源后通过“open design meetings”促进外部贡献。
早期 MLIR 的 AI dialect 设计未考虑 GenAI 需求。
核心 MLIR 开发者分散导致沟通和协调问题。
新的 MLIR 治理结构有助于引导其发展。
MLIR 对通用编译器基础设施有贡献但未实现端到端 AI 解决方案。
硬件公司构建 AI 软件受 NVIDIA 竞争优势影响。

Modular: What about the MLIR compiler infrastructure? (Democratizing AI Compute, Part 8)

https://www.modular.com/blog/democratizing-ai-compute-part-8-what-about-the-mlir-compiler-infrastructure

阅读 31

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。