Apple 发布 OpenELM 语言模型
Apple 发布了基于 Transformer 的 OpenELM 语言模型,该模型采用了一种称为“缩放注意力机制”的技术,以提高参数分配的效率。OpenELM 在性能上优于同规模模型,并且需要更少的训练 tokens。
主要特点
- 完整框架发布:与以往仅提供模型权重和推理代码的做法不同,Apple 此次发布了完整的框架,包括数据准备和训练代码。这使得任何人都可以完全复现模型,因为 OpenELM 仅在公开可用的数据上进行训练。
- 多种模型规模:研究人员训练了四种不同规模的模型,参数数量分别为 270M、450M、1.1B 和 3B。每种规模都提供了基础版本和指令调优版本。实验显示,指令调优版本在基准测试中性能提升了 1 到 2 个百分点。
- 层间注意力缩放:OpenELM 的一个关键特性是层间注意力缩放。与大多数 Transformer 模型在不同层使用相同维度和参数不同,OpenELM 在“下层”(靠近输入)使用较少的维度和参数,而在“上层”使用更多的维度和参数。这使得模型在给定总参数数量的情况下具有更高的准确性。
训练数据与调优
- 训练数据:OpenELM 在公开数据集(如 The Pile 和 RedPajama)上进行了预训练,总共包含了约 1.8T tokens。
- 指令调优:团队使用了 UltraFeedback 数据集(包含 60k prompts)进行指令调优,采用了拒绝采样和直接偏好优化算法。
性能评估
- 评估工具:研究人员使用 LM Evaluation Harness 对 OpenELM 进行了评估,测试了包括常识推理和语言理解在内的多种任务。
- 对比结果:OpenELM 与 MobiLlama 和 OLMo 等相似规模的模型进行了对比,结果显示 OpenELM 在性能上优于这些基线模型,最多提升了 2.35 个百分点,尽管 Apple 使用了比这些模型少一半的预训练数据。
- MMLU 表现:Andrew Ng 的 AI 通讯 The Batch 指出,OpenELM 在 MMLU(大规模多任务语言理解)测试中表现不佳,得分仅略高于随机猜测。相比而言,微软的 Phi-3-mini 在相同测试中取得了 68.8% 的准确率。
社区反应
- 便携性与隔离性:有 Reddit 用户指出,OpenELM 的便携性和隔离性是其价值所在,这使得公司可以在不向第三方提供数据的情况下训练模型。
- 代码与权重:OpenELM 的代码已发布在 GitHub 上,模型权重则可在 Huggingface 上获取。
总结
Apple 的 OpenELM 通过创新的层间注意力缩放机制和完整的框架发布,为开源研究社区提供了强大的工具。尽管在 MMLU 测试中表现不佳,但其在性能上的优势和对公开数据的依赖,使其成为一个值得关注的开源模型。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。