开发大型语言模型指南第 1 部分：预训练

主要观点：介绍了斯坦福 CS229 课程中 Yann Dubois 的讲座，分享大型语言模型（LLM）开发的关键要点，包括五个主要组件、两个发展阶段（预训练和后训练）及相关内容。
关键信息：

LLM 开发的五个主要组件：架构（基于 transformers）、训练算法、数据（质量等）、评估、系统（部署在现代硬件）。
两个发展阶段：预训练（语言建模阶段，基于 web 规模数据集训练理解和生成文本）和后训练（如监督微调、强化学习等使模型符合用户需求）。
预训练相关内容：
- 语言建模是核心，当前多数 LLM 是自回归语言模型，通过链式法则预测下一个词，有优点（直接建模条件概率）和缺点（生成慢）。
- 自回归语言模型工作步骤：tokenization、embedding、通过模型处理、输出下一个词的概率分布、采样（推理时）、迭代生成（推理时），训练时使用交叉熵损失函数。
- 评估方法： perplexity（衡量预测文本质量，值越低性能越好，但已非主要学术基准）、自动可评估基准（如 HELM、Huggingface 开放 LLM 排行榜）、学术基准（如 MMLU），存在评估挑战（对提示敏感、输出不一致、训练测试污染等）。
- 数据收集和准备的关键步骤：下载互联网、过滤不良内容、去重、启发式过滤、模型过滤、域分类和重新加权、高质量微调，当前的基准和数据集（开放学术数据集和封闭模型）及面临的挑战（效率、平衡域、合成数据、多模态数据、保密和法律问题等）。
- 缩放定律可预测模型性能，基于数据量和模型大小，新的训练流程可更高效，还可用于模型架构选择和资源分配等，“苦涩的教训”是更大模型性能更好，应注重简单可扩展架构。
- 训练 SOTA 模型需要巨大计算资源，以 LLaMA 3 为例，介绍了训练数据和计算规模、计算基础设施、训练成本、碳足迹及未来缩放趋势。
重要细节：
提到常见的网络爬虫 Common Crawl 及数据处理过程中的各种挑战和方法。
举例说明不同评估基准的应用和特点。
给出 LLaMA 3 训练的具体数据和计算细节，如训练数据量、FLOPs、使用的 GPU 数量、训练时间、成本和碳足迹等。