评判混合体助力 CGPO,引领 RLHF 新变革

📖阅读时长:25分钟

🕙发布时间:2025-02-06

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文

基于人类反馈的强化学习(RLHF)在多任务学习(MTL)中存在局限性,这是由于极端多目标优化面临挑战(即需要权衡多个,有时甚至相互冲突的目标),因此其泛化能力不佳。受限生成策略优化(Constrained Generative Policy Optimization,CGPO)解决了这些局限性。CGPO的核心是评判混合体(Mixture of Judges,MoJ),它通过分层进行成本高效的受限策略优化,能够以一种有原则的方式在RLHF中找到完美的融合点。

传统RLHF的局限性

传统的RLHF在奖励建模和优化过程中都存在局限性,这阻碍了它的有效性,尤其是在多任务场景中。这些局限性可以分为以下几类:

奖励建模的局限性

  • 细粒度标准对齐能力不足:奖励模型,即使是基于复杂的大语言模型(LLMs),在为需要细致判断的任务(如数学问题求解或代码正确性评估)提供准确指导时也存在困难。它们依赖基于偏好的学习,这使得捕捉这些任务的细微差别变得困难。
  • 粗粒度偏好设置中的代理性质:即使在更广泛的偏好优化中,奖励模型也只是真实人类偏好的代理,可能会被错误指定。这就导致了 “奖励破解” 现象,即模型优先考虑使代理奖励最大化的输出,但这些输出却与实际人类偏好不一致。虽然KL散度惩罚可以缓解这个问题,但它们并没有解决奖励模型不完善的核心问题。

RLHF优化器的局限性

  • 相互矛盾的优化目标:人类偏好多种多样,通常包含多个可能相互冲突的目标。传统的RLHF使用线性权重来组合来自不同任务的奖励,并在所有场景中应用相同的权重。这可能不是最优的,因为理想的目标平衡可能会因上下文而异。
  • 多任务对齐的僵化优化策略:标准的RLHF在所有任务中采用统一的优化策略。然而,不同的任务可能受益于不同的超参数设置(例如每个提示的生成次数、批量大小、KL正则化)。僵化的方法没有考虑到每个任务的独特特征,可能导致性能不佳。

单任务单目标下的CGPO

CGPO流程概述

CGPO的主要设计是整合多个约束条件,以缓解因奖励模型能力有限而产生的奖励破解问题。通过基于对每个奖励模型弱点的先验知识引入这些约束条件,可以有效地避免关键的奖励破解模式。

大语言模型生成的内容需要满足的一组约束条件表示为({C_1,C_2,\ldots,C_M}),满足约束条件(C_k)的状态 - 动作集表示为(\Sigma_k),即(\Sigma_k = {(s, a) \in S \times A \text{ 且 } (s, a) \text{ 满足 } C_k \text{ 的要求}})。可行区域被定义为满足所有约束条件的状态 - 动作集,即(\Sigma = \Sigma_1 \cap \Sigma_2 \cap \ldots \cap \Sigma_M)。

在每次迭代中,从提示集(D)中采样一个小批量数据,当前的大语言模型策略用于为每个提示生成(K)个响应((1 \leq K))。然后,所有生成的样本由评判器(J)进行评估,以确定生成的内容是否违反特定约束条件。

随后,根据约束条件满足标签,生成的内容被分为 “正样本” 和 “负样本” 两组。然后,使用受限的RLHF优化器,基于这两组样本更新策略。

为了在大语言模型设置中有效解决多约束问题,提出了三种新的RLHF优化器。对于选项一,开发了一种策略梯度方法和一种在线直接偏好优化(DPO)方法。对于选项二,开发了一种基于奖励排序的方法。

校准正则化策略梯度(CRPG)

校准正则化策略梯度(Calibrated Regularized Policy Gradient,CRPG)结合了奖励模型和约束条件来指导学习过程。它旨在最大化奖励,同时确保大语言模型的输出符合特定规则或准则。

标准的RLHF方法直接使用奖励模型的输出更新大语言模型。然而,这些原始奖励值可能存在问题。奖励模型可能擅长比较对同一提示的不同响应,但它对不同提示的评分可能无法直接比较。对一个提示评分为(0.9)的响应,可能比另一个提示评分为(0.95)的响应要好得多。这种缺乏校准的情况可能导致大语言模型性能不佳。

CRPG通过引入校准奖励来解决这个问题。对于训练中使用的每个提示,CRPG假设存在一个基线响应。这个基线响应可以是:

  • 训练数据集中预先存在的 “黄金标准” 响应。
  • 微调前初始大语言模型生成的响应。

校准奖励将当前大语言模型的响应((a))与同一提示((s))的基线响应((\bar{a}))进行比较。这种校准奖励本质上表示在给定提示下,当前大语言模型的响应优于基线响应的概率。

这种校准使得不同提示的奖励值具有可比性,并将奖励值限制在(0)到(1)之间,防止极端值对学习过程产生过度影响。

CRPG还结合约束条件来解决奖励模型的局限性。这些约束条件代表了大语言模型的输出必须遵循的规则或准则。这些约束条件由一个单独的 “评判” 模块进行评估,该模块可以是基于规则的(例如字符串匹配),也可以是基于大语言模型的。

为了防止大语言模型的行为偏离其初始行为太远(在某些情况下这可能是可取的),CRPG还包括一个基于KL散度的正则化项。

受限在线直接偏好优化(CODPO)

受限在线直接偏好优化(Constrained Online Direct Preference Optimization,CODPO)基于直接偏好优化(DPO)。它首先使用当前策略为每个提示生成多个响应,并将生成的内容分为正样本(X_t^+)和负样本(X_t^-)。从(X_t^+)中选择奖励值最高的正样本,从(X_t^-)中选择奖励值最低的负样本。如果没有生成的内容满足所有约束条件,则可以跳过该样本。相反,当没有生成的内容违反任何约束条件时,可以选择奖励模型值最低的生成内容作为负样本。

校准正则化奖励排序微调(CRRAFT)

校准正则化奖励排序微调(Calibrated Regularized Reward Ranking Finetuning,CRRAFT)基于RAFT算法构建。在原始的RAFT算法中,每一轮都使用当前策略模型从一个提示生成多个响应。然后使用奖励模型选择奖励模型得分最高的响应。随后,执行一步监督微调(SFT)更新,以最大化生成样本的可能性。策略模型通过迭代更新,以更好地与奖励模型对齐。

在多约束设置中,在RAFT的基础上进行了以下两个更改,以开发CRRAFT优化器:

  • 在使用奖励模型对每个响应进行评分后,过滤掉任何违反约束条件的生成响应。此外,为了避免当前策略与起始策略(\pi_{ref})偏差过大,还会过滤掉KL散度大于预定义阈值的所有生成内容。之后,应用奖励排序,从剩余的响应中选择奖励模型得分最高的响应。
  • 在进行受限正则化奖励排序后,不是直接进行SFT更新,而是根据校准奖励值对每个选定的响应重新加权,然后再进行SFT更新。

CGPO中的评判器

在CGPO中,开发并集成了两种类型的约束评判模块,以评估生成的内容是否满足约束条件:

  • 基于规则的约束评判模块:该模块采用基于规则的方法(如字符串匹配和代码执行)来确定生成的内容是否严格遵守预定义的规则。它对于与精确指令遵循相关的约束条件特别有效,在这种情况下,生成的内容必须满足诸如长度、段落数量和关键词包含等精确要求。它还可以处理推理任务,如数学问题和代码生成。
  • 基于大语言模型的约束评判模块:该模块用作大语言模型生成器。在大多数情况下,生成的内容在发送到评判模块之前会根据模板进行格式化。这些模块不仅提供约束条件满足情况,还提供评判构建背后的推理。由于这一特性,它们通常能够处理更具挑战性的约束评估任务,如安全违规、基于参考的事实性验证和错误拒绝模式。

多任务多目标下的CGPO

在多任务环境中,CGPO利用 “奖励模型 + 评判混合体 + 优化器” 的定制组合,为每个任务提供量身定制的对齐指导。整个CGPO流程有以下两个核心组件:

  • 多目标奖励建模:CGPO首先根据提示的性质将提示集(D)分类为不同的、不重叠的类别,即(D = {D_1, D_2, \ldots, D_L})。每个提示集(D_l \in D)被称为一个任务。随后,利用一组训练好的奖励模型({R_{calib,1},R_{calib,2},\ldots,R_{calib,V}}),为每个任务(D_l)定制要应用的特定奖励模型。这种定制确保每个提示类别(D_l)都能从相应奖励模型提供的最合适指导中受益。请注意,奖励模型的数量(V)小于或等于任务数量,这意味着单个奖励模型可以在多个任务中使用。
  • 多专家对齐:在策略模型为每个任务生成在线样本后,使用特定任务的评判混合体来识别不符合预定义标准的生成内容。基于生成内容的约束条件满足情况和定制的奖励模型,实施具有特定超参数设置的RLHF策略优化器,以有效地对齐每个任务。对于那些有精确评判器且需要大量探索才能得出正确响应的任务,如指令遵循、数学和编码任务,应用宽松的KL阈值和每个提示较高的生成次数。相比之下,对于缺乏精确评判器且大量探索不太关键的任务,如 “通用聊天”,则选择更严格的KL阈值和每个提示较少的生成次数。

实验设置

大语言模型的微调专注于在以下五个任务上实现对齐:

  • 通用聊天:提高多轮对话能力、连贯性、一致性、正确性,并与用户意图保持一致。侧重于基于事实的响应。
  • 指令遵循:增强在特定上下文或行业中准确遵循指令的能力。旨在获得更精确和相关的响应。
  • 数学/代码推理:提高数学和编码能力,以处理复杂问题,包括调试和求解方程。
  • 参与意图:通过人类反馈(喜欢/不喜欢)增强用户参与度,最大化积极的用户响应。
  • 有害意图:训练大语言模型识别并抵御与安全相关的对抗性攻击,防止生成有害或误导性信息。

基础模型是LLaMA-3.0-70B预训练检查点。使用开源数据集独立进行监督微调(SFT),以建立初始策略,表示为(\pi_0)。对于以下列出的所有偏好对数据集,在SFT中仅使用正样本。

  • 通用聊天:LMSys-55k、UltraChat
  • 指令遵循:LLama 3.0 70B指令模型合成指令遵循数据集
  • 数学/代码推理:Orca-Math、MetaMath、Evol-CodeAlpaca、UltraFeedback、UltraInteract
  • 有害意图:人工标注的安全数据集

训练进行2个epoch。

使用以下开源的成对偏好数据训练三个专门的奖励模型(RMs)。

有用性奖励模型

对LLaMA-3-70B指令模型进行微调,以评估各种任务中响应的有用性。

该模型使用来自几个按任务类型分类的数据集的成对偏好数据进行训练:

  • 通用聊天:HH-RLHF、SHP、HelpSteer、Distilabel-Capybara、Distilabel-Orca和LMSys-55k。
  • 指令遵循:LLaMA 3.0 70B指令模型合成指令遵循成对偏好数据集。
  • 数学/代码推理:Argilla Math、UltraFeedback和UltraInteract。

参与度奖励模型

使用LLaMA-3-70B指令模型微调的二元分类器,用于预测用户参与意图。这个预测器随后作为确定参与度的 “预言机”。

使用LMSys-1M数据集创建成对偏好数据集。对129,692个提示进行子采样,使用LLaMA-3-70B指令模型为每个提示生成四个响应。“预言机” 参与度预测器对每个响应进行评分,得分最高的响应与得分最低的响应配对,以创建训练数据。

安全奖励模型

LLaMA-3-8B指令微调模型,专注于识别和防止不安全或有害的响应。

训练数据:一个人工标注的安全成对偏好数据集,用于识别提示中的有害意图。

为了解决奖励模型的局限性,在多任务对齐实验中实施了几个评判器。

  • 错误拒绝评判器:加强安全协议可能会导致大语言模型过于保守,在响应无害的用户查询时出现错误拒绝的情况。这会降低用户体验。为了应对这一挑战,开发了一个错误拒绝分类器,这是一个经过微调的大语言模型,旨在检测错误拒绝情况,以确保大语言模型的有效性。
  • 精确指令遵循评判器:奖励模型在精确遵循指令方面常常存在困难。为了解决这个问题,实施了一个基于规则的评判器,它能够准确评估对用户提示中30多种特定指令遵循请求的合规性,例如 “分两段回答问题”。
  • 正则表达式数学/代码推理评判器:奖励模型经常无法准确评估数学和编码问题的正确性。为了提高准确性,针对这两个领域引入了专门的评判器。对于数学相关查询,使用基于规则的方法检查响应的最终答案是否与正确答案匹配。对于编码问题,基于单元测试的评判器通过对代码运行一系列单元测试来评估代码的准确性。
  • 事实性评判器:幻觉是大语言模型中常见的问题,尤其是在RLHF阶段。奖励模型往往无法区分事实性和非事实性陈述。为了解决这个问题,使用Llama3 70B模型作为事实性约束评判器,评估输出中与事实相关的陈述是否与预先收集、验证的事实数据相矛盾,从而确保大语言模型提供的信息的准确性和可靠性。
  • 安全评判器:由于安全奖励模型的准确性有限,仅靠它不足以确保模型的可信度。为了进一步提高安全性,引入了LlamaGuard2,这是一个行业领先的开源微调大语言模型,用于评估输出是否违反预定义的安全标准。

与以往直接将SFT模型作为RLHF起点的研究不同,本研究引入了一个 “热身” 阶段。这个阶段从一个经过几步DPO初步微调的模型开始,该模型是从SFT模型开始微调得到的。

评估

CGPO在各种基准测试中优于基线RLHF方法(近端策略优化(PPO)和直接偏好优化(DPO))。

与初始模型和PPO相比,CGPO在各个基准测试中持续提高性能,特别是使用CRPG和CRRAFT优化器时。PPO在编码基准测试中表现出性能下降(奖励破解)。DPO的改进程度不如CGPO。

所有基准测试的评估结果表明,使用CRPG和CRRAFT的CGPO变体显著优于DPO和PPO。CRPG在数学和编码方面表现出色,CRRAFT在有用性和事实性方面表现出色。

评判混合体(MoJs)对CGPO的性能至关重要。

没有MoJs,CGPO的性能会下降,尤其是在编码基准测试中,这与PPO类似。MoJs可以防止奖励破解并提高性能。

RLHF热身阶段显著提高了CGPO的性能。

从热身模型初始化的CGPO在大多数基准测试中比从SFT模型开始具有更好的性能。

从高度优化的DPO基线开始可能会对最终性能产生负面影响,这可能是由于探索有限。

论文

The Perfect Blend: Redefining RLHF with Mixture of Judges

本文由mdnice多平台发布


柏企科技圈
1 声望0 粉丝

时间差不多了,快上车!~