RAFT：用于生成式基础模型对齐的奖励排序微调

📖阅读时长：15分钟

🕙发布时间：2025-02-05

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

生成式基础模型可以从其广泛的无监督训练数据中继承隐性偏差，从而导致样本次优、结果扭曲和不公平。来自人类反馈的强化学习（RLHF）主要用于解决这一对齐挑战。然而，RL 算法可能效率低下且不稳定，从而阻碍成功对齐。

为此，Reward rAnked FineTuning（RAFT，奖励排序微调）旨在有效地调整生成模型。该方法利用奖励模型和足够数量的样本，选择高质量的样本，丢弃那些表现出意外行为的样本，然后通过对这些过滤后的样本进行微调来增强模型。

奖励排序微调

考虑一个模型参数为 $w_0$ 的初始生成模型 $G_0 = g(w_0, x)$。该模型可以采用输入 $x$ 并根据分布 $p_{G_0}^{1/\lambda}$ 生成输出 $y$。$\lambda$ 是控制多样性的温度参数。还假设了一个奖励函数 $r(x, y)$，它为任何输入 - 输出对 $(x, y)$ 返回奖励。此奖励函数用于指导模型 $g(w,x)$。如果 $p_g(y|w,x)$ 表示为给定与 $w$ 关联的 $x$ 的条件分布，并考虑训练输入 $x$ 的分布 $D$，则目标是：

如果生成模型足够强大，可以在每个提示 $x$ 上达到最大值，那么[EQ 1]的解是：

在实践中，搜索整个输出空间以找到最佳策略通常是不可行的。但是，可以通过使用高回报数据集微调我们的模型来增强我们的策略。一个自然的选择是使用预先确定的高质量数据集来执行此操作。不幸的是，以前的研究表明，具有预定数据集的 SFT（监督微调）通常性能较差。模型在离线学习中的性能在很大程度上取决于离线数据集的覆盖率。

这个想法是利用经过训练的生成模型来生成额外的样本并增强数据集。对于每个提示，我们可以从模型中采样 $K$ 个响应，并采用奖励最高的响应。然后，我们可以使用这些最佳 $K$ 样本微调我们的模型以改进模型。这个过程可以迭代多次，因为改进的生成模型反过来提供了方程(2)（前文[EQ 2]）的更好近似值，从而进一步增强了模型。

RAFT 的学习过程可以分为三个步骤。对于每个阶段 $t + 1$：

数据收集：采样一批提示 $D_t = \{x_{t1}, · · · , x_{tb}\}$，并为每个 $x_{ti}$ 生成 $y_1, . . . , y_K$。
数据排序：使用奖励模型为每个 $x$ 计算 $\{r(x, y_1), · · · , r(x, y_K )\}$。然后，对于所有提示，取 $y := \underset{y_j\in\{y_1,···,y_K\}}{\arg\max} r(x,y_j)$ 。
模型微调：对当前模型进行微调。

这三个步骤迭代交替进行，直到奖励收敛。

LLM 实验

使用 LLaMA-7B 作为基础大语言模型（LLM）。使用 Open-LLaMA-3B 作为奖励模型。在蒸馏实验中使用 GPT-Neo-2.7B 。HH-RLHF（Helpful and Harmless，有益且无害）数据集，包含 112K 个训练样本和 12.5K 个测试样本，每个样本都有一个提示以及“选择”和“拒绝”的响应。训练分为三个阶段：监督微调（SFT）、奖励建模和强化学习从人类反馈（RLHF）。RAFT 从当前模型迭代采样 $K$ 个响应，根据奖励模型对它们进行排序，并对排名最高的响应进行模型微调。使用近端策略优化（PPO）作为基线进行比较。

HH-RLHF 数据集的完整结果表：与 PPO 和 SFT 基线相比，RAFT 实现了更高的平均奖励（2.294），同时保持了合理的困惑度（4.031）。
与 PPO 相比，RAFT 在困惑度和多样性方面表现更好：这表明 RAFT 降低了对齐成本。

GPT-4 和人类在 HH-RLHF 数据集上的评估结果：GPT-4 和人类评估都支持 RAFT 优于 PPO。
不同 $K$ 值下在分发集上的测试结果：RAFT 中更大的 $K$ 值会导致更高的奖励，但计算成本也会增加。
不同温度 $\lambda$ 下在分发集上的测试结果：更高的采样温度（$\lambda$）会增加多样性，但会略微降低奖励。

不同 KL 系数 $\beta$ 选择下在分发集上的测试结果：KL 惩罚有助于控制与初始模型的差异，但也会影响奖励学习。

不同学习目标下在分发集上的测试结果：RAFT 允许高效蒸馏，其中较小的模型（GPT-Neo-2.7B）可以使用较大模型（LLaMA-7B）生成的数据进行对齐，从而实现性能提升。

扩散模型实验

使用 RAFT 对 Stable-diffusion v1.5（SD-1.5）进行微调。使用低秩自适应（LoRA）进行高效微调。使用 CLIP（对比语言 - 图像预训练模型）作为奖励函数，利用美学分数和文本 - 图像匹配。实验将 RAFT 与 DDPO（去中心化分布式近端策略优化）进行比较。

分辨率适配：RAFT 对齐的模型可以生成合适的 256×256 样本。RAFT 成功恢复了 SD-1.5 生成 256x256 分辨率图像的能力。在这个分辨率下，RAFT 显著提高了图像质量，无论是对于域内（CIFAR-10 标签）还是域外（CIFAR-100 标签）的提示。虽然 DDPO 实现了类似的性能，但 RAFT 的速度大约快 50 倍。

RAFT 的文本 - 图像对齐（512×512 分辨率）：RAFT 在 512x512 分辨率下改善了生成图像与文本提示之间的对齐，解决了 SD-1.5 在提示中优先考虑风格信息而非对象表示的问题。

论文

RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment

RAFT：用于生成式基础模型对齐的奖励排序微调