2月25日,蚂蚁技术研究院正式开源强化学习框架 AReaL(Ant Reasoning RL)。AReaL 源自开源项目 ReaLHF,旨在训练每个人都可以复现和贡献的大型推理模型 (LRM)。AReaL 是蚂蚁技术研究院为开发一个完全开放和包容的 AGI 世界迈出的一步。
1. 完全开放与可复现
我们承诺持续发布与训练 LRM 相关的所有代码、数据集和训练流程。所有核心组件全部开源,无需担心专有限制或隐藏细节,开发者可无阻碍地使用、验证和改进 AReaL。
2. 高度扩展的计算适配性AReaL
可以适配多种计算资源环境,无论是在单节点上测试还是在数百个 GPU 上大规模训练,都能实现高效运行。
3. 社区驱动的 AGI 研究
AReaL 的目标是通过开放工具集促进合作。希望 AReaL 为 AGI 相关领域的研究贡献微薄之力,为更广泛的社区和应用场景提供支持。
首次发布包含了基于 AReaL 系统的可复现实验,涵盖 1.5B 和 7B 参数的 LRM,并在多种计算预算下进行了验证。通过 AReaL 系统,用户能够:
在 40 小时内可靠地训练 1.5B 的蒸馏模型,并通过强化学习(RL)使其在数学推理任务上超越 o1-Preview 模型。
可靠地使用 7B 模型进行 R1-Zero 实验,即在 Qwen2.5-7B 模型上运行强化学习训练,观察 thinking token 的涌现以及模型在数学推理任务上的持续改进。
目前 AReaL 已在 GitHub 全球开源社区平台正式上线,邀请社区的开发者体验基于 AReaL 训练 1.5B 推理模型或使用 7B 模型进行 R1-Zero 实验,并共同打造生态:
https://github.com/inclusionAI/AReaL
AReaL 正在积极开发中,我们将持续更新主要版本。欢迎大家关注 AReaL 的成长。
通过 AReaL,我们希望能够为更广泛的研究者和开发者提供灵活且强大的工具,加速模型推理能力的发展与普及,共建一个开放与包容共存的 AGI 世界。与此同时,我们期待与社区共同探索 AGI 的无限可能。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。