通往大型语言模型的路径

这是一篇从对少量机器学习知识的了解到理解最先进语言模型的路径总结，包含主要观点、关键信息和重要细节如下：

数学背景：学习机器学习前可“懒加载”所需数学，包括概率（[Hamming 1991]是很好的入门教材）、信息论（[Cover and Thomas 2005]、[MacKay 2003]有用）、线性代数（[3blue1brown 2016]的视频系列让线性代数有了直观意义）、微积分（只需导数和链式法则的直觉）。
机器学习中的优化：目标是找到可接受的低损失值，[Bottou, Curtis, and Nocedal 2016]是关于机器学习中各种优化方法的综述。
自动微分：AD 是训练大型神经网络的关键，[Baydin et al. 2015]是关于各种 AD 方法的综述，[Paszke et al. 2019]描述了用于生产的深度学习最广泛使用的库 PyTorch。
神经网络是什么：第一个神经网络是感知机，训练神经网络的关键算法是反向传播（[Rumelhart, Hinton, and Williams 1986]等），[LeCun et al. 1989]是使用神经网络和反向传播解决手写识别问题的早期例子，AlexNet 标志着深度学习的革命（[Krizhevsky, Sutskever, and Hinton 2012]）。
语言建模是什么：任务是学习语料库的概率分布，根源可追溯到 Markov 分析 Pushkin 的诗歌，[Shannon 1948]、[Shannon 1951]等论文也有涉及，Shannon 客厅实验在相关资料中有记载。
如何用神经网络进行语言建模：[Bengio et al. 2003]引入用神经网络建模语言和“分布式表示”（词嵌入）的想法，Google 的 word2vec 论文是嵌入的一大进步，Recurrent Neural Nets 是解决语言顺序问题的方法之一（[Elman 1990]等），[Karpathy 2022b]的播放列表是从零基础构建类似 GPT-2 的步骤。
大型语言模型：“Attention is all you need”([Vaswani et al. 2017])包含当前所有大型语言模型的核心 DNA，[Andrej Karpathy 2023]是对大型语言模型架构、训练和能力的最佳 1 小时介绍，[3blue1brown 2024]的视频系列聚焦于大型语言模型，开源大型语言模型的论文有训练数据和方法的细节，神经网络的有效性依赖于训练数据的数量和质量（“the bitter lesson”），大型语言模型的广泛适用性源于少量示例学习，训练大型语言模型是复杂的系统工程问题（[Chintala 2024]、[Dubey et al. 2024]）。