多样偏好优化(DivPO):提升语言模型回复多样性的新方法

《Diverse Preference Optimization 》
https://arxiv.org/abs/2501.18101

📖阅读时长:19分钟

🕙发布时间:2025-02-11

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文

在自然语言处理领域,语言模型的优化一直是研究的热点。今天要给大家介绍一种名为多样偏好优化(Diverse Preference Optimization,DivPO)的在线优化方法,它能让模型生成比标准流程更多样化的回复,同时还能保证生成内容的质量。

一、语言模型的困境:多样性崩塌问题

语言模型最初是在多样的文本语料库上进行训练的,学习到的分布反映了这些数据的特征。然而,在后续的强化学习从人类反馈(RLHF)阶段,目标是优化累积未来奖励($R$) 。强化学习的损失函数($L = -∑_{t} r_{t} = -R$,其中$r_{t}$是在时间步$t$生成一个标记的奖励)会促使模型将概率质量集中在奖励最高的输出上。即使有多个输出具有相同的高奖励,模型也倾向于只选择其中一个,这就导致了多样性的崩塌。

为了解决这个问题,通常会在强化学习损失中添加一个KL散度项,使模型相对于参考模型($π_{ref}$)进行正则化:$L = -∑ r_{t} — βKL(π||π_{ref})$ 。但这种方法的有效性依赖于$β$参数。$β$值较低时,高奖励的生成仍然会占主导;$β$值较高时,又会迫使模型过于接近不太匹配的参考模型。

此外,常见的评估指标,如准确率、$pass@N$和胜率等,都侧重于回复质量,往往忽略了多样性。只要单个输出质量高,即使输出同质化,这些指标也能得到优化。

二、多样偏好优化(DivPO)解析

(一)核心思路

DivPO的做法与传统方法不同。它不是选择奖励最高的回复作为“选中”的回复,而是希望选择满足一定奖励阈值且最具多样性的回复。同样,低于奖励阈值且最缺乏多样性的回复会被“拒绝”。如果一个回复与同一模型生成的其他回复有很大差异,那么它就被认为更“多样”。这组多样的选中和拒绝回复用于拟合Bradley-Terry模型并更新模型$π_{θ}$ 。

(二)关键参数与准则

  1. 奖励阈值$ρ$:为了确定选中集$Y_{cx}$和拒绝集$Y_{rx}$,引入了超参数$ρ$,它表示从最低奖励值到最高奖励值的百分比范围。
  2. 多样性准则$D$:有三种不同的方法来确定一组回复中最具多样性和最缺乏多样性的回复:

    • 模型概率:如果一个回复$y_{i}$在模型下的概率较高,意味着它更有可能再次被生成,因此多样性较低。所以$D(y_{i}) = − log π_{θ}(y_{i}|x)$,这样不太可能出现的回复会被认为更具多样性。
    • 词频:在一组回复中,包含更频繁出现单词的回复可能与其他共享这些单词的回复相似。因此,$D$被定义为逆词频。
    • 大语言模型作为多样性评判者:通过提示一个大语言模型从选中集和拒绝集中选择最具多样性和最缺乏多样性的回复。

三、DivPO训练方式

DivPO可用于离线(离策略)和在线(在线策略)训练。对于在线训练,算法1中的for循环在每个训练步骤执行,但只针对当前批次的提示。与离线设置相比,其他优化方法中的在线训练虽然提高了性能,但却以计算效率为代价。在标准方法中,在线训练更容易出现多样性崩塌,因为随着模型生成的多样性降低,模型的响应训练数据也会变得缺乏多样性。在实验中,使用Llama-3.1–8b Instruct模型作为基线模型和初始化检查点。

四、实验验证

(一)人物设定生成任务

在这个任务中,使用“词频”或“概率”准则来促进多样性。在训练和评估时,采用基于规则的奖励机制(有效JSON得1分,否则得0分)。结果显示,DivPO与监督微调(SFT)、近端策略优化(DPO)相比,显著提高了多样性,甚至比像Llama-3.1–8B-Instruct和GPT-4o这样的强大基线模型表现更优。在线DivPO在保持或提高质量的同时,实现了最佳的多样性提升(比Instruct高出30.07%,比在线DPO高出45.6%)。“词频”和“概率”多样性准则都表现良好。标准DPO存在多样性崩塌问题,尤其是在在线设置中。DivPO不仅增加了独特属性的数量,还使生成属性的分布更加均匀。

(二)关键词故事生成任务


在这个任务中,使用基于概率、基于频率和大语言模型作为多样性评判者这三种方法来促进多样性。DivPO与基线模型(SFT、DPO、GPT-4o、o1-mini)相比,显著提高了多样性,同时保持了相当的质量。DivPO可以通过调整$ρ$参数(奖励阈值)来控制多样性和质量之间的权衡。与基线模型相比,DivPO在相似的质量水平下始终能实现更高的多样性。

(三)完整故事生成任务

在这个任务中,使用与关键词故事生成任务相同的多样性指标来评估故事。ArmoRM模型使用一个未指定关键词的提示来评估故事质量。在DivPO中,调整$ρ$参数时,能观察到与之前任务类似的质量和多样性之间的权衡。在$ρ=10$左右时,DivPO的质量与SFT相似,但多样性更高。对于更大的$ρ$值,DivPO的多样性比基础模型进一步提高,但质量会略有下降。

总的来说,多样偏好优化(DivPO)为解决语言模型的多样性问题提供了一种有效的新途径,在多个自然语言处理任务中都展现出了良好的效果。
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望5 粉丝