关注前沿科技 量子位

尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。

快手,中科院,南大合作从三个层面入手推动MLLM alignment的发展,包括数据集,奖励模型以及训练算法,最终的alignment pipeline使得不同基础模型在10个评估维度,27个benchmark上都取得了一致的性能增益,比较突出的是,基于本文提出的数据集和对齐算法对LLaVA-ov-7B模型进行微调后, conversational能力平均提升了19.5%,安全性平均提升了60%。

偏好数据,训练算法,模型以及评估pipeline均已全面开源。

该方法在twitter上也引起了热议,被评为多模态alignment的game-changers

主要贡献:

  1. 新数据集:本文引入了一个包含120k精细标注的偏好比较对的数据集,包含三个维度的打分,排序,文本描述的具体原因以及平局等标注,所有标注由人类专家完成,一共50名标注人员,8名专家,耗时两个月。与现有资源相比,这一数据集在规模、样本多样性、标注粒度和质量等方面都有显著提升。
  2. 创新的奖励模型:提出了基于批评的奖励模型(Critique-Based Reward Model),该模型首先对模型输出进行批评,然后再进行评分。这一方法相比传统的标量奖励机制,提供了更好的可解释性和更有信息量的反馈,基于该方法的模型只需要7B size,在reward model benchmark就明显优于现有公开的72B-size的MLLM。
  3. 动态奖励缩放:提出了动态奖励缩放(Dynamic Reward Scaling)方法,通过根据奖励信号调整每个样本的损失权重,优化了高质量比较对的使用,进一步提高了数据的使用效率。
  4. 全面评估:本文在10个维度和27个基准上对提出的方案进行了严格评估,同时构造了一个reward model的benchmark以及safety相关的benchmark来弥补现有benchmark的不足,结果显示,在各个方面均取得了显著且一致的性能提升。

MM-RLHF人类偏好数据

数据来源: 图像数据来源包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等,总共10M,视频数据来源主要是SharedGPT-4-video,安全性相关的数据来源主要包括 VLGuard 和自构造内容。

数据过滤与模型响应生成, 通过预定义的多选题,长文本等类别均匀采样,确保少数类也有足够的样本。同时采用了knn聚类并采样的策略,保证数据的diversity。响应生成使用到了Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet等最先进的MLLM。

数据标注: 主要包含三个维度,有用性,真实性,伦理性,同时标注人员需要提供打分的依据,最终排名以及排名的依据,标注粒度细,通过专家定期进行质量检查和互动评审保证标注质量。

MM-RLHF奖励模型

标准奖励模型通常通过预训练的LLM,并用线性奖励头替换原有头部,以输出一个标量奖励值。然而,这些模型难以充分利用人类注释中的丰富信息,也不具备足够的透明性。

为了解决标准奖励模型的局限性,本文提出了一种基于批评的训练框架。在这个框架中,模型首先生成批评(对响应的分析和评估),然后基于批评来打分。批评生成部分与打分部分共同作用,确保了更细致的评价。

增强注释以提高批评质量:由于人工注释往往简洁且精炼,直接使用它们作为训练目标效果有限。因此,本文通过GPT-4o增强人工注释,使其更为详细和流畅,从而提高批评的质量。

在训练过程中,批评的生成与奖励头的训练同时进行,在训练奖励头时采取了teacher-forcing的策略,即采用了ground truth的批评作为输入,默认损失权重都为1。测试阶段先生成批评,然后基于批评得出最终得分。

性能评估

该模型框架简单,且在多个基准测试中的表现与GPT-4o相媲美,甚至超越了许多开源模型,表现出色,尤其在自定义基准测试中,其表现远超GPT-4o,这验证了其作为训练算法奖励信号的有效性。

表4中也展示了,当奖励头直接使用偏好数据集进行训练时,模型的ACC+稳定在50%左右。然而,当引入人工注释作为学习目标时,ACC+稳定提升了5%。进一步通过GPT-4o扩展人工注释,生成更加详细和流畅的批评,最终提高了ACC+达17%。当评估时直接使用人工批评时,ACC和ACC+均接近90%,表明评估质量对奖励模型效果的至关重要性。

MM-DPO:有效利用高质量偏好数据

要有效利用MM-RLHF中的高质量数据,有以下的实验发现和技巧:

MM-DPO不再仅仅关注“最难的比较对”(即排名差异最大的一对),而是将一个查询下所有可能的响应对都纳入训练。具体来说,对于一个查询 ,如果有多个响应,每一对具有不同排名的响应都被视为一个有效的比较对。这种全面的处理方式可以捕捉更细粒度的排序信息,让模型从更广泛的偏好数据中学习。然而,这种策略也带来了新的挑战:当响应对的排名差异较小时(例如排名 3 和排名 4 的比较),其奖励差距(reward margin)往往较小,而排名差异较大的响应对(例如排名 1 和排名 4 的比较)包含的信息质量更高。如果对所有样本对一视同仁,会导致高置信度的信息被低效利用。

为了解决这个问题,MM-DPO 引入了动态奖励缩放(Dynamic Reward Scaling)机制,根据奖励差距动态调整更新强度,优先利用高置信度的样本对。

具体而言,奖励模型可以自然地为样本对提供奖励差距(reward margin),这为动态控制样本的更新权重提供了一个直接的信号。

本文采用MM-RLHF-Reward-7B模型来计算奖励差距  其中  和  分别是正样本和负样本的奖励分数。

DPO中,动态缩放因子  的计算公式如下:

其中: 是初始默认缩放因子; 是一个参数,用于平衡动态部分的贡献; 是一个可调超参数,控制 随着的变化速度。

接下来只需要将DPO算法中的部分替换为动态的即可。

MM-DPO在各类benchmark上都表现出了不错的性能增益,而且其对于超参数并不是非常敏感,大多数情况下都能使得高质量pair的利用效率得到明显提升。

27个评估标准,10种评估维度的综合评估

主要领域包括图表与文档理解、OCR、幻觉检测、数学推理、通用知识、多模态对话、高分辨率与真实世界应用、视频理解、多图像处理以及多模态安全性。其中,多模态安全性基准 MM-RLHF-SafeBench 是自构建的,涵盖对抗攻击、越狱攻击、隐私保护和有害内容生成等场景,重点评估模型的安全性与鲁棒性。这些数据集为模型的多方面性能提供了详尽的测试环境。

上面两图展示了使用本文提出的数据集和对齐算法,LLaVA-OV-7B、LLaVA-OV-0.5B和InternVL-1B在不同维度上的对齐表现,其中每个评估维度的得分在相应的基准上进行了平均。

会话能力和安全性的显著提升:实验结果表明,通过对齐过程,这两个方面的表现得到了显著改进,无需调整超参数。在会话基准中,平均提高超过10%,而不安全行为减少了至少50%。此外,在WildsVision任务中,胜率至少提高了50%。

在幻觉、数学推理、多图像和视频理解方面的广泛提升:对齐后的模型在这些领域表现出显著的提升。有趣的是,尽管数据集中缺乏专门的多图像数据,模型在多图像任务中的表现依然显著提升。这表明数据集的多样性有助于模型在多个维度上进行更好的泛化。

模型对数据和超参数的偏好差异:不同模型在对齐过程中表现出不同的性能趋势,并且在不同基准上对超参数设置的偏好也各不相同。例如,在对InternVL-1B的训练中,发现排除SFT损失函数反而带来了更好的结果。此外,虽然InternVL-1B在常识知识任务中表现出显著改进,但在OCR任务中的相对提升不如LLaVA-OV系列。这些差异主要源自模型预训练数据集和策略的不同,因此需要根据具体模型对超参数进行定制化调整以获得最佳对齐效果。

小规模的MLLMs很难自我提升

尽管近年来有研究探索了MLLM的自我提升概念,但这些努力主要集中在特定领域,比如对话系统。在这一部分,团队提出了与LLM领域不同的观点,认为小规模的MLLM(参数少于7B)目前在通过自我提升实现全面性能提升方面面临重大挑战。实验结果,如上所示,可能有两个主要原因:

模型容量的限制: 对于涉及长文本或对话数据的任务,采样多个响应通常会生成至少一个相对较好的答案,从而进行DPO有可能导致性能明显提高。然而,对于更具挑战性的任务,如多项选择题或科学推理任务,小模型即使经过大量采样,也难以生成正确答案。在实验中,当最大采样数量达到八时,观察到在某些具有挑战性的多项选择题中,模型生成了相同的错误答案,或者在所有样本中一致地产生错误输出。

奖励信号质量的局限性: 目前大多数现有的多模态奖励模型是在有限多样性的训练数据集上训练的,如VLFeedback和LLaVA-RLHF。这些数据集主要关注自然图像、人类对话或相关场景,容易引发过拟合问题。当偏好数据集包含更广泛的领域(如数学推理、图表理解或其他专业领域)时,在现有数据集上训练的奖励模型无法提供有效的奖励信号。因此,识别和选择更好的样本变得困难。

这两个局限性使得目前的MLLMs很难在多样化的数据集上生成响应、使用奖励模型对其进行注释并通过自我提升循环进行迭代改进,尽管在LLM对齐中取得了类似的进展。实验确认,更好的奖励模型可以带来边际改进,但这些结果仍远不如使用高质量人工注释对比样本进行训练的效果。

未来可能的研究方向

本研究提出了MM-RLHF,一个高质量、细粒度的数据集,专门用于推动多模态大语言模型(MLLMs)的对齐工作。与以往专注于特定任务的研究不同,提出的数据集和对齐方法旨在全面提升多个维度的性能。即使在奖励建模和优化算法方面仅进行了初步改进,在几乎所有评估基准上都观察到了显著且持续的提升,强调了综合性对齐策略的潜力。

展望未来,可以看到进一步挖掘本数据集价值的巨大机会。数据集的丰富注释粒度,如每个维度的分数和排名理由,在当前的对齐算法中仍未得到充分利用。未来的工作将重点关注利用这些粒度信息与先进的优化技术,结合高分辨率数据来解决特定基准的局限性,并使用半自动化策略高效地扩展数据集。

团队相信,这些努力不仅将推动MLLM对齐到新的高度,还将为更广泛、更具普适性的多模态学习框架奠定基础。

arXiv Paper: https://arxiv.org/abs/2502.10391 Training Code: https://github.com/Kwai-YuanQ... Homepage: https://mm-rlhf.github.io/ Reward Model: https://huggingface.co/yifanz... MM-RewardBench: https://huggingface.co/datase... MM-SafetyBench: https://github.com/yfzhang114... Evaluation Suite: https://github.com/yfzhang114...

—  —

投稿请工作日发邮件到:

mailto:ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!


量子位
23 声望20k 粉丝

一家专注于人工智能与前沿科技领域的产业服务平台。