一文读懂:成对奖励模型(Pairwise RM)如何优化大模型测试采样策略
论文链接:https://arxiv.org/abs/2501.13007
代码链接:https://github.com/THU - KEG/PairwiseRM
📖阅读时长:25分钟
🕙发布时间:2025-02-09
近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
N次最佳(BoN)采样是大语言模型(LLM)测试时扩展的常用策略,它通常依赖奖励模型从多个生成结果中挑选出最佳候选解决方案。然而,传统奖励模型给出的分数往往带有随意性且不一致,这大大限制了其效果。
为解决这一问题,本文提出了一种结合淘汰赛制的成对奖励模型(Pairwise RM)用于BoN采样。该模型不再赋予绝对分数,而是同时评估两个候选解决方案的正确性。在淘汰赛中,Pairwise RM对候选解决方案进行两两比较,逐步淘汰错误的方案。
核心贡献
- 提出结合淘汰赛制的成对奖励模型(Pairwise RM)用于BoN采样,避免了传统奖励模型随意打分的局限性,还能对候选解决方案进行交叉验证。
- 发布了PAIRWISE - 443K,这是一个用于训练成对奖励模型的大规模数据集,包含443,000条带注释的成对比较数据,并公开了构建流程。
整体流程
流程如以下示例及后续步骤所示:
- Pairwise RM以一个问题和两个回答作为输入提示,输出成对比较结果,以此判断回答的正确性。
- 若Pairwise RM判断第一个回答正确,第二个回答错误,第二个回答就会被淘汰。
- 这种两两比较在淘汰赛中不断进行,直到只剩下一个回答。
- 最后剩下的回答就是最佳候选解决方案。
成对奖励模型
定义
对于一道数学题 $x$ 以及两个候选解决方案 $y_1$ 和 $y_2$,Pairwise RM旨在同时检验这两个方案的正确性。该模型经过训练来预测两个候选解决方案的正确性,分别记为 $c_1$ 和 $c_2$,用公式表示为:
$c_1, c_2 = PairwiseRM(x, y_1, y_2)$
其中,$c_1, c_2 \in \{0, 1\}$,“1”表示候选解决方案正确,“0”表示错误。
实现方式
该模型作为生成式模型来实现。给定数学题 $x$ 和两个候选解决方案 $y_1$、$y_2$ 时:
- Pairwise RM首先会利用思维链(chain - of - thought)生成一段推理文本,以此验证两个候选解决方案的正确性。
- 基于这段推理文本,Pairwise RM直接生成正确性标签 $c_1$ 和 $c_2$,从而预测两个候选解决方案的正确性。
使用思维链进行成对验证的详细提示如下:
任务目标:评估针对给定数学问题的两个回答(回答A和回答B)的正确性。对每个回答的准确性进行逐步验证。完成逐步检查后,给出每个回答最终的正确性判断。
执行步骤:
- 从两个回答中提取答案:仔细阅读两个回答,确定最终答案。如果两个回答答案不同,要明确不可能两个都正确,必然是一个正确一个错误,或者两个都错误。
逐步验证正确性:对于每个回答(回答A和回答B),都要仔细检查解决方案的每一步,需要检查以下方面:
- 数学准确性:确保所有计算、代数化简和数学运算都正确。
- 逻辑一致性:验证每一步在逻辑上都能从前一步推导得出,推理合理。
- 完整性:确保包含了完整解决问题并得出最终答案所需的所有步骤。
- 在进行逐步评估时,可以参考“附加提示”部分的实用技巧来验证每个回答的准确性。注意,检查单个步骤的正确性时,不能先下结论(例如,严禁使用“这一步不正确,因为……”这样的表述)。应该客观地检查该步骤,提供关于其正确性的证据,最后再得出该步骤是否正确的结论。也就是说,要先运用“附加提示”中的技巧检查步骤正确性,再下结论。
最终结论:完成对每个回答的逐步验证后,汇总所有信息,最终确定每个回答的答案是否正确,并按照以下标签格式给出最终判断:
- 如果回答A的答案正确:
<resp_a_judge>Correct</resp_a_judge>
- 如果回答A的答案错误:
<resp_a_judge>Incorrect</resp_a_judge>
- 如果回答B的答案正确:
<resp_b_judge>Correct</resp_b_judge>
- 如果回答B的答案错误:
<resp_b_judge>Incorrect</resp_b_judge>
- 注意:回答A和回答B可能一个正确一个错误,也可能都正确或都错误,要对每个回答给出最终判断,不能保证至少有一个回答是正确或错误的。
- 如果回答A的答案正确:
附加提示:关键验证技巧(用于步骤1):
- 重新推导解决方案的关键部分:独立计算或推导解决方案的关键步骤,验证其正确性。
- 核实计算过程:仔细检查所有数学运算(如加法、乘法、除法),确保准确无误。
- 对比回答:如有需要,对比回答A和回答B答案中的相似步骤,找出差异或不一致之处。
最终输出格式:
Final Judgment:
Response A: <resp_a_judge>Correct/Incorrect</resp_a_judge>
Response B: <resp_b_judge>Correct/Incorrect</resp_b_judge>
Question: <question> {question} </question>
Response A: <response_a> {response_a} </response_a>
Response B: <response_b> {response_b} </response_b>
淘汰赛制
引入淘汰赛制来挑选最佳候选解决方案,具体步骤如下:
- 首先将N个候选解决方案分成k个小组,答案相同的候选方案分在同一组。
- 让不同小组的候选解决方案两两对决。
- 在每场比赛中,只有被Pairwise RM判定为正确的候选解决方案才能晋级下一轮。
- 如果两个候选解决方案都被判定为正确,则随机选择一个晋级。
- 这个过程持续进行,直到只剩下一个候选解决方案;或者当所有候选解决方案都来自同一小组时提前结束。
实现的算法如下(此处原文未给出具体算法内容,若有需求可进一步补充完善 )。
PAIRWISE - 443K数据集
为训练Pairwise RM,收集了名为PAIRWISE - 443K的大规模数据集,其中包含443,000条从NumiaMath与gemini - 1.5 - flash中得到的带注释的成对比较数据。
- 数据集格式:由于Pairwise RM是作为判断候选解决方案正确性的生成式模型设计的,其训练数据集格式与监督微调的数据集相同,由提示-补全对组成。
- 数学问题收集:最初从Numina - Math数据集中收集数学问题,该数据集包含860,000道题目,涵盖高中数学练习和国际数学奥林匹克竞赛题。
- 候选解决方案生成:对于每道数学题 $x$,使用LLaMATable 3.1–8B - instruct生成 $k = 24$ 个候选解决方案 $\{y_1, y_2, ... , y_k\}$,所有问题都使用相同的四个上下文示例作为提示。
- 成对验证注释:利用gemini - 1.5 - flash对NumiaMath数据集上的Pairwise RM训练数据进行注释。为使生成的训练数据分布与淘汰赛中的解决方案比较分布一致,针对每道数学题 $x$ 及其候选解决方案 $\{y_1, y_2, ... , y_k\}$ 进行淘汰赛,选出最佳解决方案 $y_{best}$。
实验
实验设置
- 训练细节:以Qwen2.5–7B - Instruct为基础模型,在PAIRWISE - 443K数据集上进行监督微调,从而得到Pairwise RM。学习率设为 $1×10^{−5}$,使用Adam优化器,批量大小为128,模型训练8轮。
基线模型:将PairwiseRM与结果奖励模型和过程奖励模型进行对比。结果奖励模型和过程奖励模型会为每个候选解决方案打分,然后选择得分最高的作为最终输出。
- 对于结果奖励模型,使用EurusRM - 7B、SkyworkRM - Llama3.1 - 8B和ArmoRM - Llama3 - 8B。
- 对于过程奖励模型,使用三个现成的开源模型:Math - Shepherd、RLHFlow - 8B - Mistral - Data和RLHFlow - 8B - Deepseek - Data。
- 还设置了多数投票基线模型,即从N个候选解决方案中选择得票最多的作为最终输出。
实验结果
不同奖励模型在MATH - 500和Olympiad Bench数据集上,使用三种不同大语言模型(Llama - 3.1–8B - Inst、Qwen - 2.5–7B - Inst和Llama - 3.1–70B - Inst )进行N次最佳采样的性能如下表所示。结果显示,本文提出的Pairwise RM在所有数据集和生成模型上,性能均优于包括多数投票在内的基线模型。与最强的基线模型(不包括多数投票)相比,Pairwise RM在MATH - 500数据集上平均提升6.7%,在Olympiad Bench数据集上平均提升3.9%。
难度分析
将数学题的难度定义为候选解决方案中错误答案的比例,具体是在候选解决方案数量 $n = 64$ 时计算该难度。基于难度水平,将数学题划分为四个百分位组,并在MATH - 500数据集中评估Pairwise RM和基线模型在每个百分位组上的性能。结果发现,除了最简单的题目,Pairwise RM的性能始终优于过程奖励模型和结果奖励模型。特别是在最难的50%题目上,与这两种模型相比,Pairwise RM实现了40% - 60%的相对提升。
与评判模型的比较
正确性验证比较
在MATH - 500和Olympiad数据集上,对Pairwise RM和以大语言模型作为评判器(LLM - as - a - Judge)在正确性验证任务上进行比较,候选方案由Qwen2.5–7B - Instruct生成。结果表明,Pairwise RM在这两个数据集上的表现均优于评判模型,这意味着在判断正确性时,Pairwise RM中的成对验证比评判模型中的单解决方案验证更有效。
N次最佳采样比较
为使评判模型能够在测试时进行BoN采样,提出两种解决方案:
- 与多数投票结合:评判模型验证每个候选解决方案的正确性,剔除被标记为错误的方案,然后对剩余方案进行多数投票,选出最终输出。
- 使用概率分数:促使评判模型在推理文本中生成“correct”或“incorrect”标记来表明解决方案的正确性,生成“correct”标记的概率可作为每个候选解决方案的分数,得分最高的方案被选为最终输出 。(评判模型结合多数投票/概率分数与Pairwise RM在BoN采样上的对比图如下)。结果显示,在MATH - 500和Olympiad数据集上,Pairwise RM均优于评判模型,再次证明在判断正确性时,Pairwise RM的成对验证更有效。
研究结论
本文提出了结合淘汰赛制的成对奖励模型(Pairwise RM)用于BoN采样。Pairwise RM能同时评估两个候选解决方案,避免了随意打分,还能通过并行比较实现解决方案的交叉验证。在淘汰赛中,它对候选解决方案进行两两比较,逐步淘汰错误方案。
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。