晶体管悬崖—星号

主要观点:硬件对 AI 进展影响重大,最大的 AI 模型依赖昂贵的微芯片训练,多年来 AI 性能提升由硬件进步驱动,但摩尔定律可能终结。
关键信息

  • 半导体制造历史上性能提升和价格降低的模式曾被摩尔定律概括,但如今已停滞或接近极限。
  • 缩放定律描述了模型性能与输入(训练数据、模型参数和计算)的关系,如 OpenAI 发现损失与计算呈幂律关系。
  • 摩尔定律在 AI 进展中,晶体管数量按每两年翻倍,但价格相关的摩尔定律在 2011 年已停滞,当前最佳硬件的晶体管密度增长依赖于更小的晶体管和更多的核心。
  • 晶体管尺寸存在热力学和光分辨率等物理极限,预计未来十年内晶体管尺寸缩小将受限。
  • 超越摩尔定律有多种途径,如设计 3D 芯片、特殊用途芯片、用其他开关替代晶体管等,但都存在不确定性。
  • 训练时间和内存带宽是 AI 发展的限制因素,内存带宽增长远慢于计算能力增长,即使 GPU 峰值浮点运算能力不提升,购买大量 GPU 并行运行也无法实现线性计算提升。
  • 可通过改进 AI 模型或算法来提高效率,减少内存带宽或计算需求,如 FlashAttention 方法和 LoRA 训练方案等,开源社区在创建紧凑、廉价训练的语言模型方面取得进展。
    重要细节
  • GPT-2 训练数据为 3 亿 tokens,参数 15 亿,GPT-3 为 3000 - 4000 亿 tokens 和 1750 亿参数,GPT-4 规模约 4000 亿 - 1 万亿参数和 8 万亿 tokens 训练数据。
  • 2012 到 2023 年训练最先进机器学习模型的计算量增长约 8 个数量级。
  • 目前 GPU 浮点运算能力每两年左右翻倍,主要由更小的晶体管和更多的核心驱动。
  • 热力学最小栅极长度约为 4 - 5nm,预计 2030 年达到,光光刻技术在 2029 年左右达到极限。
  • 3D 芯片可使晶体管密度翻倍,英特尔 2030 年有望实现晶体管密度 10 倍提升,两层 CPU 芯片 2021 年已发布。
  • ASIC 是刚性专用芯片,FPGA 更灵活,谷歌 TPU 比 Nvidia V100 GPU 浮点运算能力更强。
  • 光学计算利用光进行计算,速度快但密度低,目前仍处于推测阶段,忆阻器电阻依赖通过的电荷,实验室中最小约 1nm,但技术仍未成熟。
  • 最大的模型训练需 6 个月,大部分时间用于读写模型权重,Nvidia A100 GPU 最佳利用率约 60%,峰值 DRAM 带宽增长远慢于浮点运算能力。
  • FlashAttention 方法可使 GPT-2 训练速度提高三倍,避免内存存储冗余可使 GPT-2 规模模型速度提升 8 倍,开源模型 Alpaca 性能可与 GPT-3 媲美且训练成本低。
阅读 8
0 条评论