2025-03-10,由上海交通大学和小红书公司联合创建了VLRMBench数据集。是一个专门用于评估视觉-语言奖励模型的综合性基准测试,包含12,634个问题,覆盖数学推理、幻觉理解和多图像理解三大领域。为视觉-语言奖励模型的全面评估提供了新的标准,推动了该领域的发展。
一、研究背景
近年来,随着大语言模型和大视觉-语言模型的快速发展,它们在多模态任务中取得了显著进展,广泛应用于医学影像、遥感、自动驾驶等领域。然而,这些模型在视觉-语言推理任务中仍存在不足,主要表现为推理深度不够以及缺乏自我纠错机制。
目前遇到的困难和挑战:
1、推理深度不足:现有视觉-语言模型在复杂任务中推理能力有限,容易因逻辑不一致或错误导致推理失败。
2、缺乏自我纠错机制:模型在推理过程中难以自我检测和纠正错误,导致推理结果不可靠。
3、基准测试的局限性:现有的视觉-语言奖励模型基准测试大多只评估单一能力(如比较多个推理过程的质量),无法全面评估模型的推理能力,限制了奖励模型的发展。
数据集地址:VLRMBench
二、让我们一起来看一下VLRMBench
VLRMBench包含12,634个问题,涵盖数学推理、幻觉理解和多图像理解三大领域。
数据集设计了12个任务,分为基于步骤的任务、基于结果的任务和基于批评的任务,分别用于评估模型的推理过程理解、结果判断和错误分析能力。
数据集构建:
1、数据收集:整合了8个常用数据集,包含16,550个样本和19,343张图像。
2、样本筛选:通过小模型筛选高质量和高难度样本,最终保留6,715个样本。
3、任务生成:利用高性能模型生成推理过程,并通过人工审核确保样本质量,最终形成1,000个高质量样本。
数据集特点:
1、全面性:涵盖数学推理、幻觉理解和多图像理解三大领域,评估模型在不同场景下的推理能力。
2、挑战性:设计了12个任务,针对推理过程中的不同问题(如冗余、幻觉、空间关系等)进行评估。
3、高质量:通过人工审核和多模型协作生成高质量的推理过程样本。
基准测试:
VLRMBench对21个开源模型和5个闭源模型进行了广泛的实验。结果显示,即使是最先进的模型(如GPT-4o)在某些任务上也仅能达到76%的准确率,表明该数据集具有较高的挑战性。
我们的 VLRMBench 与其他公司的比较。* 代表视觉语言领域的基准。“Step Eval.?”是指是否包含步骤级别标签。
VLRMBench 的协作数据过滤和生成管道。在过滤阶段,Qwen2VL-7B 的任务是在两种情况下回答问题:无图像输入和有图像输入。模型为其提供错误答案的问题将被保留。随后,采用 QVQ-72B-preview 和 GPT-4o 为三个主题生成推理过程和构建任务。
VLRMBench 样本来源的统计数据。我们还统计了不同数据源下推理过程中的平均字数。
不同数据源的推理步骤数分布
VLRMBench 的具体输入示例。左图:SC 任务的示例。VLRM 需要理解每个推理步骤并输出一个序列,其中 '1' 表示当前推理步骤中存在错误信息,'0' 表示不存在。右:FF 任务的示例。VLRM 的任务是根据前面步骤的推理过程来评估最终结果的正确性。
三、让我们一起看一下VLRMBench应用场景
比如你喜欢的两幅画:一幅是梵高的《向日葵》,另一幅是莫奈的《睡莲》。你希望用一个视觉语言模型来帮助你理解这两幅画之间的关系,以及它们各自的特点。
开始:
你把这两幅画的图片输入到模型中,然后问它:“这两幅画中,哪一幅是梵高的作品,哪一幅是莫奈的?它们的风格有什么不同?”正常情况下,模型应该能够识别出《向日葵》是梵高的作品,以浓烈的色彩和独特的笔触著称,而《睡莲》是莫奈的作品,以柔和的色调和模糊的轮廓表现光影变化。
但是,如果模型出现了图像混淆的错误,它可能会把《睡莲》误认为是梵高的作品,或者错误地描述《向日葵》的风格是“以柔和的色调和模糊的轮廓表现光影变化”,这就完全搞错了。这种错误在多图像任务中很容易出现,因为模型需要同时处理多张图片的信息,并且准确地将每张图片的内容与对应的描述匹配起来。
VLRMBench数据集的多图像理解任务就是用来测试模型是否能够避免这种错误的。通过设计各种复杂的多图像场景,比如同时输入多张不同风格、不同主题的图片,然后让模型回答一些需要综合比较这些图片的问题,就可以考察模型在多图像任务中的理解和推理能力了。
你了解了嘛
论文中提到其他数据集:
数据集:MathVista
数据集介绍:MathVista是一个整合了视觉上下文中的数学推理基准。它包含了三个新创建的数据集:IQTest、FunctionQA和PaperQA,这些数据集旨在评估在拼图测试图上的逻辑推理、函数图上的代数推理以及学术论文图上的科学推理。此外,MathVista还整合了9个MathQA数据集和19个VQA数据集,这些数据集显著丰富了视觉感知和数学推理挑战的多样性和复杂性。MathVista总共包含了来自31个不同数据集的6,141个示例。
数据集地址:AI4Math/MathVista|数学推理数据集|多模态问答数据集
数据集:MathVision
数据集介绍:MATH-Vision (MATH-V) 数据集是一个精心策划的集合,包含3,040个高质量的数学问题,这些问题来源于真实的数学竞赛,并带有视觉上下文。该数据集涵盖了16个不同的数学学科,并分为5个难度级别,旨在全面评估大型多模态模型(LMMs)在视觉上下文中的数学推理能力。通过广泛的实验,揭示了当前LMMs与人类在MATH-V上的表现差距,强调了进一步改进LMMs的必要性。
数据集地址:MathLLMs/MathVision|多模态数学推理数据集|视觉问答数据集
数据集:MathVerse
数据集介绍:MathVerse是由CUHK MMLab、上海人工智能实验室和加州大学洛杉矶分校联合构建的一个基准测试数据集,旨在全面评估多模态大模型(MLLMs)在视觉数学问题解决中对图表的理解能力。该数据集收集了 2612 个多模态数学题,覆盖平面几何、立体几何和函数3大领域,并进一步细分为12个子领域。每个问题被转化为6个不同版本,以不同的文本和视觉信息内容进行测试,共计产生15,672个测试样本。MathVerse旨在深入探究 MLLMs 是否真正具备解读和解答多模态数学题的能力,为未来的技术发展提供独特的见解。
数据集地址:MathVerse|多模态学习数据集|人工智能数据集
数据集:DynaMath
数据集介绍:DynaMath是一个动态视觉基准,专门设计用于评估视觉语言模型在数学推理任务中的鲁棒性。它包含501个高质量的多主题种子问题,每个问题都表示为一个Python程序,能够自动生成大量具有多样视觉和文本变化的具体问题,从而全面测试视觉语言模型的泛化能力。
数据集地址:DynaMath|视觉语言模型数据集|数学推理数据集
数据集:IllusionVQA
数据集介绍:IllusionVQA是一个包含光学幻觉和难以解释场景的数据集,旨在测试视觉语言模型在理解和软定位任务中的能力。数据集的特征包括图像、问题、选项、答案、类别、ID、来源和URL。数据集分为训练集、测试集和选择集,分别包含4、435和11个样本。数据集的使用受限于非商业研究目的,并遵循CC BY-NC-SA 4.0许可。
数据集地址:csebuetnlp/illusionVQA-Comprehension|视觉问答数据集|光学幻觉数据集
数据集:HallusionBench
数据集介绍: HallusionBench是一个高级诊断套件,用于研究大型视觉-语言模型中的语言幻觉和视觉错觉问题。数据集包含254个问题和69张图片,主要用于评估模型在图像推理任务中的表现。问题类型包括视觉依赖(VD)和视觉补充(VS)问题,分为简单和困难两个难度级别。数据集的目的是挑战如GPT-4V和LLaVA-1.5等多模态模型的图像上下文推理能力,并提供对这些模型如何改进的深入见解。
数据集地址:rayguan/HallusionBench|视觉-语言模型数据集|模型评估数据集
数据集:BLINK
数据集介绍:BLINK数据集是一个用于评估多模态大语言模型(LLMs)视觉感知能力的基准测试。该数据集包含14个经典计算机视觉任务,共3,807个多项选择题,每个问题都配有单张或多张图像以及视觉提示。BLINK的独特之处在于其多样化的视觉提示、超越识别的感知能力以及视觉常识。数据集的目标是挑战多模态模型在整体视觉感知能力上的表现,并推动未来多模态LLMs的发展,使其达到人类水平的视觉感知。
数据集地址:BLINK-Benchmark/BLINK
数据集:Mantis-Eval
数据集介绍:Mantis-Eval是一个新策划的数据集,用于评估多模态语言模型在多图像推理上的能力。该数据集包含200多个由人类注释的挑战性多图像推理问题。数据集的特征包括id、问题类型、问题、图像、选项、答案、数据来源和类别。数据集的分割信息显示,测试集包含217个示例,总字节数为479770102。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。