成对奖励模型（Pairwise RM）如何优化大模型测试采样策略

一文读懂：成对奖励模型（Pairwise RM）如何优化大模型测试采样策略

论文链接：https://arxiv.org/abs/2501.13007
代码链接：https://github.com/THU - KEG/PairwiseRM

📖阅读时长：25分钟

🕙发布时间：2025-02-09

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

N次最佳（BoN）采样是大语言模型（LLM）测试时扩展的常用策略，它通常依赖奖励模型从多个生成结果中挑选出最佳候选解决方案。然而，传统奖励模型给出的分数往往带有随意性且不一致，这大大限制了其效果。

为解决这一问题，本文提出了一种结合淘汰赛制的成对奖励模型（Pairwise RM）用于BoN采样。该模型不再赋予绝对分数，而是同时评估两个候选解决方案的正确性。在淘汰赛中，Pairwise RM对候选解决方案进行两两比较，逐步淘汰错误的方案。

核心贡献

提出结合淘汰赛制的成对奖励模型（Pairwise RM）用于BoN采样，避免了传统奖励模型随意打分的局限性，还能对候选解决方案进行交叉验证。
发布了PAIRWISE - 443K，这是一个用于训练成对奖励模型的大规模数据集，包含443,000条带注释的成对比较数据，并公开了构建流程。

整体流程

流程如以下示例及后续步骤所示：

Pairwise RM以一个问题和两个回答作为输入提示，输出成对比较结果，以此判断回答的正确性。
若Pairwise RM判断第一个回答正确，第二个回答错误，第二个回答就会被淘汰。
这种两两比较在淘汰赛中不断进行，直到只剩下一个回答。
最后剩下的回答就是最佳候选解决方案。

成对奖励模型

定义

对于一道数学题 $x$ 以及两个候选解决方案 $y_1$ 和 $y_2$，Pairwise RM旨在同时检验这两个方案的正确性。该模型经过训练来预测两个候选解决方案的正确性，分别记为 $c_1$ 和 $c_2$，用公式表示为：
$c_1, c_2 = PairwiseRM(x, y_1, y_2)$
其中，$c_1, c_2 \in \{0, 1\}$，“1”表示候选解决方案正确，“0”表示错误。

实现方式

该模型作为生成式模型来实现。给定数学题 $x$ 和两个候选解决方案 $y_1$、$y_2$ 时：

Pairwise RM首先会利用思维链（chain - of - thought）生成一段推理文本，以此验证两个候选解决方案的正确性。
基于这段推理文本，Pairwise RM直接生成正确性标签 $c_1$ 和 $c_2$，从而预测两个候选解决方案的正确性。

使用思维链进行成对验证的详细提示如下：
任务目标：评估针对给定数学问题的两个回答（回答A和回答B）的正确性。对每个回答的准确性进行逐步验证。完成逐步检查后，给出每个回答最终的正确性判断。
执行步骤：

从两个回答中提取答案：仔细阅读两个回答，确定最终答案。如果两个回答答案不同，要明确不可能两个都正确，必然是一个正确一个错误，或者两个都错误。
逐步验证正确性：对于每个回答（回答A和回答B），都要仔细检查解决方案的每一步，需要检查以下方面：
- 数学准确性：确保所有计算、代数化简和数学运算都正确。
- 逻辑一致性：验证每一步在逻辑上都能从前一步推导得出，推理合理。
- 完整性：确保包含了完整解决问题并得出最终答案所需的所有步骤。
- 在进行逐步评估时，可以参考“附加提示”部分的实用技巧来验证每个回答的准确性。注意，检查单个步骤的正确性时，不能先下结论（例如，严禁使用“这一步不正确，因为……”这样的表述）。应该客观地检查该步骤，提供关于其正确性的证据，最后再得出该步骤是否正确的结论。也就是说，要先运用“附加提示”中的技巧检查步骤正确性，再下结论。
最终结论：完成对每个回答的逐步验证后，汇总所有信息，最终确定每个回答的答案是否正确，并按照以下标签格式给出最终判断：
- 如果回答A的答案正确：<resp_a_judge>Correct</resp_a_judge>
- 如果回答A的答案错误：<resp_a_judge>Incorrect</resp_a_judge>
- 如果回答B的答案正确：<resp_b_judge>Correct</resp_b_judge>
- 如果回答B的答案错误：<resp_b_judge>Incorrect</resp_b_judge>
- 注意：回答A和回答B可能一个正确一个错误，也可能都正确或都错误，要对每个回答给出最终判断，不能保证至少有一个回答是正确或错误的。

附加提示：关键验证技巧（用于步骤1）：

重新推导解决方案的关键部分：独立计算或推导解决方案的关键步骤，验证其正确性。
核实计算过程：仔细检查所有数学运算（如加法、乘法、除法），确保准确无误。
对比回答：如有需要，对比回答A和回答B答案中的相似步骤，找出差异或不一致之处。

最终输出格式：

Final Judgment:
Response A: <resp_a_judge>Correct/Incorrect</resp_a_judge>
Response B: <resp_b_judge>Correct/Incorrect</resp_b_judge>
Question: <question> {question} </question>
Response A: <response_a> {response_a} </response_a>
Response B: <response_b> {response_b} </response_b>

淘汰赛制

引入淘汰赛制来挑选最佳候选解决方案，具体步骤如下：

首先将N个候选解决方案分成k个小组，答案相同的候选方案分在同一组。
让不同小组的候选解决方案两两对决。
在每场比赛中，只有被Pairwise RM判定为正确的候选解决方案才能晋级下一轮。
如果两个候选解决方案都被判定为正确，则随机选择一个晋级。
这个过程持续进行，直到只剩下一个候选解决方案；或者当所有候选解决方案都来自同一小组时提前结束。

实现的算法如下（此处原文未给出具体算法内容，若有需求可进一步补充完善）。

PAIRWISE - 443K数据集

为训练Pairwise RM，收集了名为PAIRWISE - 443K的大规模数据集，其中包含443,000条从NumiaMath与gemini - 1.5 - flash中得到的带注释的成对比较数据。

数据集格式：由于Pairwise RM是作为判断候选解决方案正确性的生成式模型设计的，其训练数据集格式与监督微调的数据集相同，由提示-补全对组成。
数学问题收集：最初从Numina - Math数据集中收集数学问题，该数据集包含860,000道题目，涵盖高中数学练习和国际数学奥林匹克竞赛题。
候选解决方案生成：对于每道数学题 $x$，使用LLaMATable 3.1–8B - instruct生成 $k = 24$ 个候选解决方案 $\{y_1, y_2, ... , y_k\}$，所有问题都使用相同的四个上下文示例作为提示。
成对验证注释：利用gemini - 1.5 - flash对NumiaMath数据集上的Pairwise RM训练数据进行注释。为使生成的训练数据分布与淘汰赛中的解决方案比较分布一致，针对每道数学题 $x$ 及其候选解决方案 $\{y_1, y_2, ... , y_k\}$ 进行淘汰赛，选出最佳解决方案 $y_{best}$。

实验

实验设置

训练细节：以Qwen2.5–7B - Instruct为基础模型，在PAIRWISE - 443K数据集上进行监督微调，从而得到Pairwise RM。学习率设为 $1×10^{−5}$，使用Adam优化器，批量大小为128，模型训练8轮。
基线模型：将PairwiseRM与结果奖励模型和过程奖励模型进行对比。结果奖励模型和过程奖励模型会为每个候选解决方案打分，然后选择得分最高的作为最终输出。
- 对于结果奖励模型，使用EurusRM - 7B、SkyworkRM - Llama3.1 - 8B和ArmoRM - Llama3 - 8B。
- 对于过程奖励模型，使用三个现成的开源模型：Math - Shepherd、RLHFlow - 8B - Mistral - Data和RLHFlow - 8B - Deepseek - Data。
- 还设置了多数投票基线模型，即从N个候选解决方案中选择得票最多的作为最终输出。

实验结果

不同奖励模型在MATH - 500和Olympiad Bench数据集上，使用三种不同大语言模型（Llama - 3.1–8B - Inst、Qwen - 2.5–7B - Inst和Llama - 3.1–70B - Inst ）进行N次最佳采样的性能如下表所示。结果显示，本文提出的Pairwise RM在所有数据集和生成模型上，性能均优于包括多数投票在内的基线模型。与最强的基线模型（不包括多数投票）相比，Pairwise RM在MATH - 500数据集上平均提升6.7%，在Olympiad Bench数据集上平均提升3.9%。

难度分析

将数学题的难度定义为候选解决方案中错误答案的比例，具体是在候选解决方案数量 $n = 64$ 时计算该难度。基于难度水平，将数学题划分为四个百分位组，并在MATH - 500数据集中评估Pairwise RM和基线模型在每个百分位组上的性能。结果发现，除了最简单的题目，Pairwise RM的性能始终优于过程奖励模型和结果奖励模型。特别是在最难的50%题目上，与这两种模型相比，Pairwise RM实现了40% - 60%的相对提升。

与评判模型的比较

正确性验证比较

在MATH - 500和Olympiad数据集上，对Pairwise RM和以大语言模型作为评判器（LLM - as - a - Judge）在正确性验证任务上进行比较，候选方案由Qwen2.5–7B - Instruct生成。结果表明，Pairwise RM在这两个数据集上的表现均优于评判模型，这意味着在判断正确性时，Pairwise RM中的成对验证比评判模型中的单解决方案验证更有效。

N次最佳采样比较

为使评判模型能够在测试时进行BoN采样，提出两种解决方案：

与多数投票结合：评判模型验证每个候选解决方案的正确性，剔除被标记为错误的方案，然后对剩余方案进行多数投票，选出最终输出。
使用概率分数：促使评判模型在推理文本中生成“correct”或“incorrect”标记来表明解决方案的正确性，生成“correct”标记的概率可作为每个候选解决方案的分数，得分最高的方案被选为最终输出。（评判模型结合多数投票/概率分数与Pairwise RM在BoN采样上的对比图如下）。结果显示，在MATH - 500和Olympiad数据集上，Pairwise RM均优于评判模型，再次证明在判断正确性时，Pairwise RM的成对验证更有效。

研究结论

本文提出了结合淘汰赛制的成对奖励模型（Pairwise RM）用于BoN采样。Pairwise RM能同时评估两个候选解决方案，避免了随意打分，还能通过并行比较实现解决方案的交叉验证。在淘汰赛中，它对候选解决方案进行两两比较，逐步淘汰错误方案。

本文由mdnice多平台发布

成对奖励模型（Pairwise RM）如何优化大模型测试采样策略

一文读懂：成对奖励模型（Pairwise RM）如何优化大模型测试采样策略

核心贡献

整体流程

成对奖励模型

定义

实现方式

淘汰赛制

PAIRWISE - 443K数据集

实验

实验设置

实验结果

难度分析

与评判模型的比较

正确性验证比较

N次最佳采样比较

研究结论

柏企科技圈

引用和评论

从CLIP到未来：深入探讨视觉任务的视觉语言模型VLM

一文掌握 MCP 上下文协议：从理论到实践

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式