【论文解读】让我们逐步验证

一、简要介绍

本文简要介绍了大模型热门论文“Let’s Verify Step by Step ”的相关工作。近年来，大型语言模型在执行复杂的多步骤推理的能力上有了显著的提高。然而，即使是最先进的模型也会经常产生逻辑错误。为了训练更可靠的模型，可以转向为最终结果提供反馈的结果监督，或者转向为每个中间推理步骤提供反馈的过程监督。考虑到训练可靠模型的重要性，并且考虑到人工反馈的高成本，仔细比较这两种方法是很重要的。最近的工作已经开始了这种比较，但仍存在许多问题。论文进行了自己的调查，发现在解决具有挑战性的MATH数据集的问题时，过程监督明显优于结果监督。论文的过程监督模型解决了来自数学测试集的一个代表性子集中的78%的问题。此外，论文还发现，主动学习显著提高了过程监督的有效性。为了支持相关研究，论文还发布了PRM800K，这是一个包含80万 step-level人类反馈标签的完整数据集，用于训练论文的最佳反馈模型。

二、研究背景

大型语言模型能够通过一步一步的思维链格式生成解决方案来解决需要复杂的多步推理的任务。然而，即使是最先进的模型也容易产生错误——它们表现出有不定时创造事实的倾向。这些错误在需要多步骤推理的领域尤其成问题，因为一个逻辑错误就足以破坏一个更大的解决方案。检测和减轻错误对提高推理能力至关重要。

一种有效的方法是训练反馈模型来区分理想的和不良的输出。反馈模型可在强化学习pipeline中使用，或通过拒绝抽样进行搜索。虽然这些技术很有用，但由此产生的系统只与反馈模型本身一样可靠。因此，论文研究如何最有效地训练可靠的反馈模型是很重要的。

在相关的工作中，Uesato等人（2022）描述了两种不同的训练反馈模型的方法：结果监督和过程监督。结果监督反馈模型（ORMs）只使用模型思维链的最终结果进行训练，而过程监督反馈模型（PRMs）在思维链的每一步接收反馈。过程监督提供了更精确的反馈，因为它指定了发生的任何错误的确切位置。它还有几个与人工智能对齐相关的优势：人类更容易解释，而且它更直接地反馈遵循人类认可的思维链的模型。在逻辑推理领域内，经过结果监督训练的模型经常使用错误的推理来获得正确的最终答案（Zelikman等人，2022；Creswell等人，2022）。过程监督已被证明可以减轻这种失调的行为（Uesato等人，2022年）。

尽管有这些优势，Uesato等人（2022）发现，结果监督和过程监督在小学数学领域有类似的最终表现。论文对结果和过程监督进行了详细的比较，但有三个主要区别：论文使用更强大的基础模型，论文使用更多的人工反馈，论文对更具挑战性的MATH数据集进行训练和测试（Hendrycks et al.，2021）。

论文的主要贡献如下：

论文表明，过程监督可以比结果监督训练更可靠的反馈模型。论文使用最先进的PRM来解决来自数学测试集的一个代表性子集中的78.2%的问题。
论文表明，一个大反馈模型可以可靠地近似人类对小反馈模型的监督，并且它可以用于有效地进行大规模数据收集消融。
论文表明，主动学习使过程监督数据效率的提高2.6倍。
发布了论文完整的流程监督数据集，PRM800K，以促进相关研究。

三、方法介绍

论文采用与Uesato等人（2022年）类似的方法，对结果和过程监督进行了比较。结果监督可以在没有人工的情况下进行，因为MATH数据集中的所有问题都有自动可检查的答案。相比之下，没有一种简单的方法来自动化过程监督。因此，论文依赖于人类的数据标签器来提供过程监督，特别是标记模型生成的解决方案中的每一个步骤的正确性。论文在两个独立的方法下进行实验：大规模和小规模。每一种都有自己的优势，它们提供了互补的视角。在大规模上，论文微调GPT-4（OpenAI，2023）微调所有模型。论文专注于通过训练最可靠的ORM和PRM来提高最先进的水平。不幸的是，这些反馈模型的训练集不能直接比较，原因论文将在后文中讨论。因此，这些模型对于对结果和过程监督进行全面比较并不理想。为了解决这个缺陷，论文还训练了小规模的模型，在那里可以进行更直接的比较。为了消除对昂贵的人工反馈的依赖，论文使用一个大规模模型来监督小规模模型的训练。这种设置使论文能够进行几个重要的消融，否则将是不可行的。 Scope 在每个模型尺度上，论文使用一个固定的模型来生成所有的解决方案。论文称这个模型为生成器。论文并不试图用强化学习（RL）来改进生成器。当论文讨论结果和过程监督时，论文特别指的是对反馈模式的监督。论文不讨论如果使用RL进行训练，生成器将从反馈模型中获得的任何监督。虽然用RL微调生成器是很自然的下一步，但它不是这项工作的重点。相反，论文只关注如何训练最可靠的反馈模式。论文通过反馈模型对从生成器得到的均匀采样解执行最佳n搜索的能力来评估它。对于每个测试问题，论文会选择按反馈模型排名最高的解决方案，并根据其最终答案自动对其进行评分，并报告正确的分数。一个更可靠的反馈模式会更频繁地选择正确的解决方案。 Base Models 所有的大规模模型都从基础GPT-4的模型中进行了微调（OpenAI，2023）。该模型经过预训练，仅用于预测下一个token；它没有经过任何来自人类反馈强化学习（RLHF）的预训练（Christiano等人，2017）。小规模的基础模型在设计上与GPT-4相似，但它们经过了预训练，计算量减少了大约200倍。作为一个额外的预训练步骤，论文在一个大约1.5B个数学相关标记的数据集上微调所有模型，论文称之为MathMix。与Lewkowycz等人（2022年）类似，论文发现这提高了模型的数学推理能力。关于如何构建这个数据集的细节可以在附录A中找到。 Generator 为了使解析单个步骤更容易，论文训练生成器以换行分隔的分步格式生成解决方案。具体来说，论文生成少量MATH训练问题的解决方案，过滤出那些正确的最终答案，并将这个数据集上的基础模型进行微调。此步骤不打算教生成器新技能；它只是为了教生成器以所需格式的提出解决方案。 Data Collection 为了收集过程监督数据，论文提出了人类数据标签器与逐步解决方案的MATH问题的大规模生成器采样。他们的任务是为解决方案中的每个步骤分配一个正、负或中性的标签，如图1所示。一个正的标签表示该步骤是正确的和合理的。负标签表示该步骤不正确或不合理。中性标签表示歧义。在实践中，如果一个步骤具有微妙的误导性，或者它是一个糟糕的建议但在技术上仍然有效，那么它可能被贴上中立的标签。论文允许中性标签，因为这允许推迟关于如何处理歧义的决定：在测试时，论文可以将中性标签视为积极的或消极的。在附录D中提供了对标签说明的更详细的说明。

为了最大限度地提高有限的人力数据资源的价值，论文将收集到的整个步骤级标签数据集称为PRM800K。PRM800K训练集包含800K的步骤级标签，包含12K个问题的75K个解决方案。为了最小化过拟合，论文在PRM800K训练集中包含了来自4.5K MATH测试问题的数据，因此论文只在剩下的500个MATH测试问题上评估论文的模型。关于这个测试集的更多细节可以在附录C中找到。
在数据收集过程中，论文必须决定哪些解决方案处理数据。最直接的策略是使用由生成器产生的均匀表面解。然而，如果论文找出有明显错误的解决方案，得到的人类反馈就不那么有价值了。论文更愿意给出那些更有可能愚弄作者的最佳反馈模型的解决方案。为此，论文试图战略性地选择哪些解决方案来显示数据标记器。具体来说，论文选择标记令人信服的错误答案的解决方案。论文使用“令人信服”这个术语来指代由论文目前最好的PRM给予高评级的解决方案，论文使用错误答案来指代达到错误最终答案的解决方案。论文使用这个稍微冗长的措辞来强调这样一个事实，即正确性仅仅是通过检查最终答案来决定的，这个过程偶尔会导致错误分级的解决方案。
作者希望从标记令人信服的错误答案的解决方案中获得更多的信息，因为作者知道PRM在每个这样的解决方案中至少有一个步骤是错误的。除了使用这种选择策略外，作者还在数据收集过程中的几个点上使用最新的数据迭代地重新训练论文的PRM。在每次迭代中，论文为每个问题生成N个解，并且只处理数据标签器的前K个最令人信服的错误答案解。论文尝试在问题级别（每个问题K个解决方案）或在数据集上全局应用（总共K个解决方案，在问题之间不均匀分布）。由于数据收集过程费用昂贵，因此对这些决定进行大规模废除是不可行的。然而，论文在后文中执行了几个替代消融，使用论文最大的PRM作为一个更小的PRM的标记预测。关于数据收集的更多细节，请见附录B。 Outcome-supervised Reward Models (ORMs) 论文采用与Cobbe等人（2021年）类似的方法来训练ORM。论文从生成器中均匀地采样每个问题的固定数量的解，并训练ORM来预测每个解是正确的还是不正确的。在实践中，论文通常通过自动检查最终答案来确定正确性，但原则上这些标签可以由人类提供。在测试时，论文使用ORM在最终标记处的预测作为解决方案的总分数。论文注意到，用于确定ORM目标的自动评分并不完全可靠：达到正确答案和错误推理的false positives解决方案将被错误评分。论文将在附录E中讨论其他的ORM训练细节。
Process-supervised Reward Models (PRMs) 论文训练PRM在每一步中的最后一个标记之后预测每一步的正确性。这种预测采用单一标记的形式，论文在训练过程中最大化这些目标标记的对数似然。因此，PRM可以在标准语言模型pipeline中进行训练，而不需要任何特殊的适应。为了确定在测试时的步长级预测，只要对整个解决方案执行一次PRM向前传递就足够了。论文在图2中可视化了两种不同解决方案的大规模PRM分数。为了比较多个解决方案，需要为每个解决方案计算一个分数。这是一个重要但很直接的细节：论文将一个解决方案的PRM分数定义为在PRM下每一步都是正确的概率。论文将其实现为每一步的正确性概率的乘积。论文在附录F中描述了其他可能的评分策略和额外的PRM训练细节。

当论文提供过程监督时，论文故意选择只监督到不正确的第一步。这使得结果和过程监督之间的比较更加直接。对于正确的解决方案，这两种方法都提供了相同的信息，即每一步都是正确的。对于不正确的解决方案，这两种方法都揭示了至少一个错误的存在，而过程监督还揭示了该错误的精确位置。如果论文在第一个错误之外提供额外的过程监督，那么过程监督将有一个更大的信息优势。这个决定也使人类的标签成本相似：如果不依赖于一个简单的检查的最终答案，确定一个解决方案的正确性就等同于识别它的第一个错误。虽然大多数MATH问题确实有很容易检查的最终答案，但论文预计在更复杂的领域中并非如此。 Large-scale Supervision 论文使用PRM800K中的步骤级标签来训练大规模的PRM。为了确保大规模ORM基线尽可能强，论文对生成器的每个问题的100个统一样本进行训练。这意味着ORM训练集与PRM800K没有重叠，而且它要大一个数量级。虽然这两个训练集不能直接比较，但每一个都代表了论文通过每一种监督形式推进最先进水平的最佳尝试。论文注意到，仅在PRM800K解决方案上训练ORM将是有问题的，因为论文的主动学习策略严重地使数据集偏向于错误答案解决方案。论文确实探索了通过混合均匀采样的解决方案，在PRM800K解决方案的超集上训练ORM，但是作者发现这并没有提高ORM的性能。图3显示了每个反馈模型的N最佳表现如何随着N函数而变化。由于已知多数投票是一个强大的基线（Wang等人，2022；Lewkowycz等人，2022），论文也将这种方法作为比较点。虽然ORM的表现略优于多数投票基线，但PRM的表现明显优于两者。PRM不仅对所有的N值都达到了更高的性能，而且性能差距随着N的增加而增大。这表明，在搜索大量模型生成的解决方案时，PRM比ORM和多数投票都更有效。

论文尝试使用RM加权投票（Li等人，2022；Uesato等人，2022年）来将PRM和多数投票的好处结合起来，但这并没有显著提高绩效。论文使用MATH测试集的一个特定子集来进行评估，在附录c中描述了它。论文在附录G中通过问题的难度进一步分解了这些结果。 Small-scale Synthetic Supervision 论文发现PRM在大规模上优于ORM，但这一结果本身并不完整。为了更好地比较结果和过程监督，有两个混杂因素必须独立出来。首先，ORM和PRM的训练集不能直接比较：PRM训练集是使用主动学习构建的，偏向于答案不正确的解决方案，并且要小一个数量级。其次，最终答案评分将为尽管推理错误，但最终答案正确的虚假的解决方案提供正标签。这可能会损害ORM的性能，论文无法确定将这种影响归因于更普遍的结果监督。由于收集人工反馈的高成本，论文不能使用人类标签器轻易地消除这些因素。相反，论文通过使用大规模的PRM来监督较小的模型来执行相关的消融。这种设置使论文能够以一个适中的成本来模拟大量的数据收集。在本节的其余部分中，论文将第3节中的大规模PRM称为PRMlarge。 Process vs Outcome Supervision 论文现在对结果和过程监督进行直接比较。论文首先从一个小规模的生成器中抽取每个问题的1到200个解决方案。对于每个数据集，论文提供了三种形式的监督：来自PRMlarge的过程监督，来自PRMlarge的结果监督，以及来自最终答案检查的结果监督。监督的选择是这三个系列的反馈模型之间的唯一区别，它们是在相同的数据集上进行训练的。有关PRMlarge如何用于结果和过程监督的更多细节，请参见附录H。在图4a中，论文通过其500个最佳选择来评估每个反馈模型。论文看到，在所有数据收集尺度上，过程监督显著优于两种形式的结果监督。在图4b中，论文通过其在不同n值下的最佳n表现来评估每个系列的最佳反馈模型。论文看到，使用PRMlarge进行结果监督明显比最终答案检查更有效。这可以用这样一个事实来解释：PRMlarge为使用不正确的推理获得正确的最终答案的解决方案提供了更好的监督。目前尚不清楚PRMlarge监督还是最终答案检查代表了更合适的结果监督基线。虽然最终答案的监督更明确地基于结果，但它的主要弱点false positives的存在在MATH数据集中被过度强调了。PRMlarge的结果监督更好地代表了不太容易出现false positives的领域的结果监督。论文认为PRMlarge的结果监督是更相关的基线，但论文鼓励读者得出自己的结论。

Active Learning 最后，论文研究了主动学习的影响。论文在每个问题的单个样本上训练一个小规模的反馈模型PRMselector，并且论文使用这个模型对每个问题的1000个样本进行评分。为了训练论文的每个较大的反馈模型，论文为每个问题选择N个样本，这样80%是最令人信服的（根据PRMselector）错误答案样本，20%是最有说服力的样本（对或错答案）。论文用PRMlarge对所选的样本进行评分，并对这些评分进行训练。这个过程确保了所有样本在PRMselector下相对令人信服，已知很大一部分样本包含至少一个错误，论文的整个数据集不会严重偏向错误答案的解决方案。该数据标签方案的性能如图4a所示。通过比较有主动学习和没有主动学习的最佳拟合线的斜率，论文估计这种形式的主动学习的数据效率大约比统一的数据标记高2.6倍。论文注意到，在最大的主动学习数据集（每个问题200个样本）上训练的模型似乎略低于预期的趋势线。论文对这一观察结果的最佳解释是，200个样本代表了总体选择池（1000个样本）的重要比例，这种多样性的相对缺乏限制了主动学习可能的好处。论文还对在整个数据收集过程中迭代再训练PRMselector的影响进行了初步调查。在迭代之间，论文使用所有当前标记的数据重新训练PRMselector。论文在这个过程中观察到了不稳定，但无法诊断出来。所得到的反馈模型的表现并不比上述模型表现得更好。论文预测某种形式的迭代再训练对积极学习有益，但论文目前还没有具体的证据来支持这一说法。论文认为这是未来研究的一个强有力的方向。 OOD Generalization 为了获得一些分布外泛化的测量方法，论文在224个STEM问题上评估了论文的大尺度ORM和PRM，这些问题是从最近的AP物理、AP微积分、AP化学、AMC10和AMC12考试中提取的。论文在表1中报告了ORM、PRM和多数投票的100项最佳表现。论文观察到与前文大规模监督相似的结果：PRM优于ORM和多数投票。这表明论文，PRM可以容忍适度的分布变化，并且它强大的性能支持新的测试问题。

四、讨论

Credit Assignment 过程监督的一个明显优势是，它提供了比结果监督更精确的反馈。一个经过结果监督训练的反馈模型面临着一个困难的Credit Assignment任务——要想很好地概括，它必须确定一个不正确的解决方案在哪里出了问题。这对于一些难题来说尤其困难：大多数模型生成的解决方案在某个地方包含一个错误，因此来自结果监督的负标签的边际值很低。相比之下，过程监督提供了一个更丰富的信号：它指定了有多少个第一个步骤实际上是正确的，以及错误步骤的精确位置。过程监督使Credit Assignment更容易，论文相信这就解释了它的强劲表现。
Alignment Impact 和与人工智能对齐相关的结果监督相比，过程监督有几个优势。过程监督更有可能产生可解释的推理，因为它鼓励模型遵循一个由人类认可的过程。过程监督本质上也更安全：它直接反馈对齐的思想链，而不是依赖结果作为对齐行为的代理（Stuhlmuller和Byun，2022）。相比之下，结果监督更难被审查，而且所传达的偏好也不那么精确。在最坏的情况下，使用结果作为一个不完美的代理可能会导致模型在学习利用反馈信号后出现错位（Uesato等人，2022；Cotra，2022；Everitt等人，2017）。
在某些情况下，人工智能系统的更安全的方法可能导致性能下降（ouyang等人，2022；Askell等人，2021年），这种成本被称为alignment tax。一般来说，由于部署最强大的模型的压力，任何alignment tax都可能阻碍对齐方法的采用。论文的研究结果表明，过程监督实际上会导致负alignment tax。这可能会导致更多的人采用过程监督，论文认为这将会产生积极的对齐副作用。目前还不清楚这些结果将推广到数学领域之外的多么广泛的范围内，论文认为在未来的工作中探索过程监督在其他领域的影响是很重要的。
Test Set Contamination MATH数据集的测试集包含了在几个讨论过的在线场景的问题，其中一些问题很可能出现在论文的模型的预训练数据集中。论文试图使用字符串匹配启发式方法从论文的MathMix数据集中删除所有的MATH问题，但由于人类可以在网上发布难以检测的问题的重新表述，因此很难对MathMix和MATH数据集之间的重叠做出任何强有力的保证。在论文检查模型生成的解决方案的经验中，作者没有看到论文的模型记忆数学问题的明显迹象。然而，不可能排除微妙的经过人工检查的记忆形式，而且仍然有可能一定程度的污染略微夸大了论文在数学测试集上的表现。即使在这种情况下，论文预计任何污染在所有方法中都能表现出类似的情况，而在整个工作中进行的相对比较将基本不受影响。论文还注意到，PRM有规律地对生成器下的数学问题的正确解，其中一些例子可以在附录I中看到。生成器的低解决率是进一步表明它没有通过测试集污染遇到这样的问题。从上文中得到的泛化结果进一步加强了论文的主张，即测试集污染对这项工作没有显著影响，因为论文在保证未受污染的问题上观察到定性相似的结果。

五、总结

论文已经证明，在数学推理的领域中，过程监督可以用来训练比结果监督更可靠的反馈模型。论文还表明，主动学习可以通过只处理人类反馈的最有价值的模型完成，来降低人类数据收集的成本。论文发布了PRM800K，这是一个完整的人类反馈数据集，用于训练论文最先进的反馈模型，希望消除这一重要的进入障碍将促进对大型语言模型对齐的相关研究。作者认为，过程监督目前还没有得到充分的探索，论对未来的工作能够更深入地调查这些方法的推广程度感到兴奋。

附录

详见原文：https://arxiv.org/abs/2305.20050

【论文解读】让我们逐步验证

合合技术团队

引用和评论

合合信息首批通过中国信通院文档图像篡改检测平台能力完备性测评

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

百度 Create AI 开发者大会：李彦宏发布两大新模型、多款热门 AI 应用，帮助开发者全面拥抱 MCP

AI Agent爆火后，MCP协议为什么如此重要！

大语言模型的发展与应用综述（2025年5月）

面对开源大模型浪潮，基础模型公司如何持续盈利？