蚂蚁清华联合发布 AReaL-boba，代码数据全开源，助力社区轻松复现 SOTA 推理模型

蚂蚁技术研究院与清华大学交叉信息院吴翼团队联合发布开源强化学习训练框架 AReaL（Ant Reasoning RL）0.2 版本 AReaL-boba，并公开全部代码、数据及训练脚本，助力社区轻松复现 SOTA 推理模型。

核心亮点

极速训练吞吐：集成 xAI 公司采用的 SGLang 框架，对比初代系统在 1.5B/7B/32B 模型上分别提升 35%/60%/73% 训练速度；

图 1：AreaL-boba 对比初代 AReaL 训练大幅度提升训练吞吐
大规模分布式支持：支持 128 张 H800 GPU 1 天即可训练 1.5B 模型、256 张 H800 GPU 2 天即可训练 7B 模型；

7B 模型刷新开源社区记录：
以 Qwen-R1-Distill-7B 为基础，进行大规模强化学习训练，即可在 2 天内取得领域最佳的数学推理能力，实现 AIME 2024 61.9 分、AIME 2025 48.3 分；

图 2：AReaL-boba-RL-7B 与类似规模模型性能对比
全流程开源验证：公开所有的训练数据（AReaL-boba-106k），全部的训练脚本和评估脚本，确保结果可复现。

200 条数据复刻 32B 模型：通过数据蒸馏技术，基于 Qwen-32B-Distill 轻量级 SFT 实现 AIME 2024 78.8 分（接近 QwQ-32B 的 78.9 分），训练成本仅200 美金。

表 1：AReaL-boba- SFT-32B 与类似规模模型的 AIME 2024 分数

AReaL 团队致力于推动强化学习技术的普惠化，正如命名灵感 boba “珍珠奶茶”所期许的，AReaL 期待像日常饮品一样融入 AI 开发者的工作场景，与社区共同探索智能边界的无限可能。

让强化学习触手可及，让顶尖推理能力普惠每一行代码。