Microsoft Research 发布 rStar-Math 框架

主要观点

Microsoft Research 近日发布了 rStar-Math 框架，该框架展示了小型语言模型（SLMs）在数学推理能力方面可以达到甚至超越大型模型（如 OpenAI 的 o1-mini）的水平。这一成果无需依赖更先进的模型，标志着在提升 AI 推理能力方面的一种新方法。

rStar-Math 的核心是 蒙特卡罗树搜索（MCTS） 方法，它使 SLMs 能够进行迭代式、逐步推理。这一过程由一个基于 SLM 的奖励模型引导，该模型评估中间步骤的质量并优化推理路径。通过自进化过程，rStar-Math 不断改进其模型和训练数据的质量。

rStar-Math 解决了开发数学 AI 模型中的关键挑战，包括高质量数据集的稀缺性和构建健壮奖励模型的复杂性。为此，框架引入了以下创新：

代码增强的 CoT 数据合成：使用 MCTS 滚动生成带有已验证中间步骤的推理轨迹，并通过 Python 代码执行验证这些步骤，确保高质量的训练数据。
过程偏好模型（PPM）：不再依赖噪声奖励标注，而是使用 MCTS 滚动中的 Q 值创建偏好对来训练 PPM，从而更有效地评估步骤质量。
自进化框架：通过四次迭代，rStar-Math 逐步训练出更好的策略和奖励模型，从一个包含 747,000 个数学问题的数据集开始，生成越来越精炼的数据用于后续训练。

rStar-Math 在多个数学推理基准测试中表现出色：

Qwen2.5-Math-7B 模型在 MATH 基准测试中的准确率从 58.8% 提升至 90.0%，超过了 OpenAI 的 o1-preview 模型（85.5%）。
在 美国数学奥林匹克（AIME） 测试中，rStar-Math 取得了 53.3% 的成功率，平均解决了 15 道题中的 8 道。

社区成员对 rStar-Math 的方法表示赞赏，特别是使用 Q 值作为标注的简洁性。论文作者 Li Lyna Zhang 回应称，在 AIME 等具有挑战性的数学基准测试中，性能在 64 次轨迹后趋于饱和，而在大学数学任务中，性能继续稳步提升，但由于搜索成本增加，未尝试扩展更多轨迹。

rStar-Math 已在 GitHub 上开源，采用 MIT 许可证，供研究人员和工程师探索和用于评估和改进 AI 系统的数学推理能力。未来工作包括合成更多奥林匹克级别的数学问题以进一步提升模型性能。