如何扩展你的模型

这是一本关于深度学习模型扩展的书籍,主要内容如下:

  • 背景与目标:假定读者对 LLM 和 Transformer 架构有基本了解,目标是让读者能估计给定硬件平台上 Transformer 模型的最佳并行方案及训练和推理所需时间。如今即使“小”模型也接近硬件极限,理解模型扩展对于做新研究很重要,“模型扩展”旨在增加训练或推理的芯片数量并实现吞吐量的成比例线性增长。
  • 内容概述

    • 屋顶线分析:解释屋顶线分析及限制扩展的因素(通信、计算和内存)。
    • TPU 与 GPU:详细讨论 TPU 和现代 GPU 作为单个芯片及相互连接系统的工作原理,包括矩阵乘法时间、TPU 连接方式、数组分布及矩阵乘法等问题。
    • Transformer 架构:仔细讲解“Transformer 数学”,包括训练和推理的参数及浮点运算数,展示标准 Transformer 层的结构及各部分矩阵乘法。
    • 训练与推理:讨论在给定模型大小和芯片数量的情况下,如何并行化模型以保持“强扩展”状态,包括数据、张量、管道和专家等 4 种主要并行技术及减少内存需求的其他技术,并通过实际教程应用到 LLaMA-3 模型。
    • 性能分析与 JAX 编程:介绍如何在 JAX 中实现这些想法及当出现问题时如何进行性能分析和调试代码。
  • 各部分链接:分为初步、Transformer 和实践教程三部分,包含多个章节,分别介绍相关理论和实践内容。
  • Section 1:TPU 屋顶线:关于 TPU 屋顶线的内容。

总之,本书旨在解释 TPU(和 GPU)硬件工作原理以及 Transformer 架构如何在当前硬件上良好运行,对研究新架构和优化现有模型都很有用。

阅读 7
0 条评论