OpenELM：一个具有开放训练和推理框架的高效语言模型家族

发布于 7 月 27 日

主要观点：大型语言模型的可重复性和透明度对开放研究至关重要，为此发布 OpenELM 这一先进的开放语言模型，采用分层缩放策略提升准确性，且发布内容包括训练和评估语言模型的完整框架、多种训练日志、检查点及预训练配置，还发布将模型转换为 MLX 库用于苹果设备推理和微调的代码，以增强开放研究社区。
关键信息：

作者包括 Sachin Mehta 等多人。
可通过查看 PDF、HTML (experimental)查看。
模型在约 10 亿参数预算下比 OLMo 准确率提升 2.36%且预训练令牌少 2 倍。
源代码及预训练模型权重等可在[https://github.com/apple/corenet]获取，模型可在 HuggingFace 的[https://huggingface.co/apple/...]找到。
有提交历史，v1 于 2024 年 4 月 22 日 23:12:03 UTC 提交，v2 于 2024 年 5 月 2 日 00:30:57 UTC 提交。
重要细节：
涉及计算与语言（cs.CL）、人工智能（cs.AI）、机器学习（cs.LG）等领域。
有 minor corrections 相关评论。
引用为arXiv:2404.14619 [cs.CL]或arXiv:2404.14619v2 [cs.CL]，以及[https://doi.org/10.48550/arXi...]。

阅读 206