主要观点:大型语言模型的可重复性和透明度对开放研究至关重要,为此发布 OpenELM 这一先进的开放语言模型,采用分层缩放策略提升准确性,且发布内容包括训练和评估语言模型的完整框架、多种训练日志、检查点及预训练配置,还发布将模型转换为 MLX 库用于苹果设备推理和微调的代码,以增强开放研究社区。
关键信息:
- 作者包括 Sachin Mehta 等多人。
- 可通过查看 PDF、HTML (experimental)查看。
- 模型在约 10 亿参数预算下比 OLMo 准确率提升 2.36%且预训练令牌少 2 倍。
- 源代码及预训练模型权重等可在[https://github.com/apple/corenet]获取,模型可在 HuggingFace 的[https://huggingface.co/apple/...]找到。
- 有提交历史,v1 于 2024 年 4 月 22 日 23:12:03 UTC 提交,v2 于 2024 年 5 月 2 日 00:30:57 UTC 提交。
重要细节: - 涉及计算与语言(cs.CL)、人工智能(cs.AI)、机器学习(cs.LG)等领域。
- 有 minor corrections 相关评论。
- 引用为arXiv:2404.14619 [cs.CL]或arXiv:2404.14619v2 [cs.CL],以及[https://doi.org/10.48550/arXi...]。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。