苹果开源十亿参数语言模型OpenELM - SegmentFault 思否

苹果开源十亿参数语言模型OpenELM

发布于 2024-05-14

Apple 发布 OpenELM 语言模型

Apple 发布了基于 Transformer 的 OpenELM 语言模型，该模型采用了一种称为“缩放注意力机制”的技术，以提高参数分配的效率。OpenELM 在性能上优于同规模模型，并且需要更少的训练 tokens。

主要特点

完整框架发布：与以往仅提供模型权重和推理代码的做法不同，Apple 此次发布了完整的框架，包括数据准备和训练代码。这使得任何人都可以完全复现模型，因为 OpenELM 仅在公开可用的数据上进行训练。
多种模型规模：研究人员训练了四种不同规模的模型，参数数量分别为 270M、450M、1.1B 和 3B。每种规模都提供了基础版本和指令调优版本。实验显示，指令调优版本在基准测试中性能提升了 1 到 2 个百分点。
层间注意力缩放：OpenELM 的一个关键特性是层间注意力缩放。与大多数 Transformer 模型在不同层使用相同维度和参数不同，OpenELM 在“下层”（靠近输入）使用较少的维度和参数，而在“上层”使用更多的维度和参数。这使得模型在给定总参数数量的情况下具有更高的准确性。

训练数据与调优

训练数据：OpenELM 在公开数据集（如 The Pile 和 RedPajama）上进行了预训练，总共包含了约 1.8T tokens。
指令调优：团队使用了 UltraFeedback 数据集（包含 60k prompts）进行指令调优，采用了拒绝采样和直接偏好优化算法。

性能评估

评估工具：研究人员使用 LM Evaluation Harness 对 OpenELM 进行了评估，测试了包括常识推理和语言理解在内的多种任务。
对比结果：OpenELM 与 MobiLlama 和 OLMo 等相似规模的模型进行了对比，结果显示 OpenELM 在性能上优于这些基线模型，最多提升了 2.35 个百分点，尽管 Apple 使用了比这些模型少一半的预训练数据。
MMLU 表现：Andrew Ng 的 AI 通讯 The Batch 指出，OpenELM 在 MMLU（大规模多任务语言理解）测试中表现不佳，得分仅略高于随机猜测。相比而言，微软的 Phi-3-mini 在相同测试中取得了 68.8% 的准确率。

社区反应

便携性与隔离性：有 Reddit 用户指出，OpenELM 的便携性和隔离性是其价值所在，这使得公司可以在不向第三方提供数据的情况下训练模型。
代码与权重：OpenELM 的代码已发布在 GitHub 上，模型权重则可在 Huggingface 上获取。

总结

Apple 的 OpenELM 通过创新的层间注意力缩放机制和完整的框架发布，为开源研究社区提供了强大的工具。尽管在 MMLU 测试中表现不佳，但其在性能上的优势和对公开数据的依赖，使其成为一个值得关注的开源模型。

Apple Open-Sources One Billion Parameter Language Model OpenELM

https://www.infoq.com/news/2024/05/apple-llm-openelm/

阅读 24

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。