1B 语言模型能超越 405B 语言模型吗?重新思考计算最优的测试时间缩放?

主要观点:Test-Time Scaling(TTS)是通过在推理阶段使用额外计算来提高大型语言模型(LLMs)性能的重要方法,但当前研究未系统分析政策模型、过程奖励模型(PRMs)和问题难度对 TTS 的影响,限制了其理解和实际应用。
关键信息:本文关注两个核心问题,通过在 MATH - 500 和具有挑战性的 AIME24 任务上的综合实验得出结论,计算最优的 TTS 策略高度依赖于政策模型、PRM 和问题难度的选择,极小型政策模型可胜过大型模型,如 1B LLM 在 MATH - 500 上可超过 405B LLM,0.5B LLM 在 MATH - 500 和 AIME24 上均胜过 GPT - 4o,3B LLM 超过 405B LLM,7B LLM 击败 o1 和 DeepSeek - R1 且推理效率更高,表明适应 TTS 策略到每个任务和模型的特定特征的重要性及 TTS 增强 LLM 推理能力的前景。
重要细节:提交历史显示由 Runze Liu 于 2025 年 2 月 10 日周一 17:30:23 UTC 提交 v1 版本,大小为 744 KB,可通过View PDFHTML (experimental)查看,引用为arXiv:2502.06703 [cs.CL](此版本为arXiv:2502.06703v1 [cs.CL]),以及https://doi.org/10.48550/ArXiv.2502.06703通过 DataCite 的 arXiv 发布的 DOI。

阅读 7
0 条评论