蚂蚁技术研究院与清华大学交叉信息院吴翼团队联合发布开源强化学习训练框架 AReaL(Ant Reasoning RL)0.2 版本 AReaL-boba,并公开全部代码、数据及训练脚本,助力社区轻松复现 SOTA 推理模型。 

核心亮点

训练速度与效率突破

  • 极速训练吞吐:集成 xAI 公司采用的 SGLang 框架,对比初代系统在 1.5B/7B/32B 模型上分别提升 35%/60%/73% 训练速度; 
    图片
    图 1:AreaL-boba 对比初代 AReaL 训练大幅度提升训练吞吐
  • 大规模分布式支持:支持 128 张 H800 GPU 1 天即可训练 1.5B 模型、256 张 H800 GPU 2 天即可训练 7B 模型; 

数学推理性能 SOTA

  • 7B 模型刷新开源社区记录:
    以 Qwen-R1-Distill-7B 为基础,进行大规模强化学习训练,即可在 2 天内取得领域最佳的数学推理能力,实现 AIME 2024 61.9 分、AIME 2025 48.3 分; 
    图片
    图 2:AReaL-boba-RL-7B 与类似规模模型性能对比
  • 全流程开源验证:公开所有的训练数据(AReaL-boba-106k),全部的训练脚本和评估脚本,确保结果可复现。

低成本复现大模型效果

200 条数据复刻 32B 模型:通过数据蒸馏技术,基于 Qwen-32B-Distill 轻量级 SFT 实现 AIME 2024 78.8 分(接近 QwQ-32B 的 78.9 分),训练成本仅200 美金

image.png

表 1:AReaL-boba- SFT-32B 与类似规模模型的 AIME 2024 分数

开源开放

  • 无保留开放:框架代码、训练数据(含 106k 全量数据及 200 条蒸馏数据)、模型权重、技术文档全部开源; 
  • 社区驱动:公开 PPO 超参数、奖励函数设计、正则化策略等关键细节,并计划持续优化异步训练、数据集升级等功能。

立即体验

AReaL 团队致力于推动强化学习技术的普惠化,正如命名灵感 boba “珍珠奶茶”所期许的,AReaL 期待像日常饮品一样融入 AI 开发者的工作场景,与社区共同探索智能边界的无限可能。 

让强化学习触手可及,让顶尖推理能力普惠每一行代码。


蚂蚁开源
11 声望3 粉丝

AntOSS ❤️ Community,为社区带来微小而美好的改变。