Ai2发布OLMo 2,一个完全开源的基础模型

OLMo 2:开源语言模型的新里程碑

艾伦人工智能研究所(The Allen Institute for AI)推出了全新开源语言模型系列OLMo 2,提供70亿(7B)和130亿(13B)参数两种配置。这些模型在训练稳定性和数据集多样性方面进行了重新定义,训练数据量高达5万亿个标记。

模型架构与训练方法

OLMo 2的架构采用了多项技术改进,包括层归一化改进(RMSNorm)、旋转位置嵌入(rotary positional embeddings)和Z-loss正则化,以增强模型的鲁棒性。训练过程分为两个阶段:

  1. 第一阶段:使用OLMo-Mix-1124数据集,包含来自DCLM和Starcoder等高质量数据源的3.9万亿个标记。
  2. 第二阶段:使用Dolmino-Mix-1124数据集进行微调,该数据集包含8430亿个标记,涵盖网络内容和特定领域内容。

此外,模型还采用了“模型融合”(model souping)技术,通过合并检查点来优化性能,最终生成了7B和13B版本的OLMo 2。

性能表现

OLMo 2在开源语言模型领域设定了新的基准,在所有评估任务中均显著优于其前身OLMo-0424。具体表现如下:

  • OLMo 2 7B在性能上超越了Llama-3.1 8B。
  • OLMo 2 13B在性能上超越了Qwen 2.5 7B,尽管其训练FLOPs更少。

评估采用了开放式语言建模评估系统(OLMES),包含20个基准测试,验证了OLMo 2在知识召回、推理和通用语言能力方面的优势。

开源与透明性

OLMo 2的发布标志着语言建模领域的重要转变,解决了训练稳定性和评估透明度等挑战。通过为开源AI设定新标准,OLMo 2展示了协作创新在推动人工智能进步方面的潜力,为更公平的技术进步铺平了道路。

社区反响

AI社区对OLMo 2的发布反响热烈,认可艾伦人工智能研究所在开源方面的承诺。AI研究员Constantine Dee在X上评论道,OLMo 2是“世界领先的开源AI模型”,其透明的数据集和训练方法为创建多样化内容带来了革命性变化。Reddit用户Billy462也表示,艾伦AI研究所发布的完全开源模型使得所有结果都可以被复现和改进。

资源与后续开发

OLMo 2模型及其权重、数据、代码、训练方法和中间检查点均已公开。此外,OLMES系统的引入为模型开发提供了结构化基准测试,帮助有效跟踪进展。通过监督微调、偏好调整和基于可验证奖励的强化学习等后训练方法,模型的指令跟随能力得到了进一步提升。

OLMo 2的发布不仅推动了开源AI的发展,也为学术界和产业界提供了强大的工具,有助于促进人工智能技术的普及和创新。

阅读 22
0 条评论