CVPR 2025：长Prompt对齐问题也能评估了！当前最大AIGC评估数据集，模型评分超越当前SOTA

关注前沿科技量子位

今年，CVPR共有13008份有效投稿并进入评审流程，其中2878篇被录用，最终录用率为22.1%。

录用论文上来看，多模态相关内容仍是关注重点。

上海交通大学-美团计算与智能联合实验室发布的论文也被录用，论文提出了Q-Eval-100K数据集与Q-Eval-Score评估框架。

论文致力于解决以下问题：

现有的文本到视觉评估数据集存在关键评估维度缺乏系统性、无法区分视觉质量和文本一致性，以及规模不足等问题；
评估过程复杂、结果模糊，难以满足特定评估需求，限制了基于大模型的评估模型在实际场景中的应用

相关实验也表明数据集和方法在评估结论和泛化性方面都做到的当前业界的领先水准。

在下表中可以看到数据集Q-Eval-100K的实例数量和人工标注数量远超其他数据集，可以说Q-Eval-100K是当前最大的AIGC评估数据集。

同时跨数据集验证显示，在Q-Eval-100K上训练的模型在GenAI-Bench数据集上表现出色，远超当前先进方法，充分证明了Q-Eval-100K数据集的泛化价值。

数据集Q-Eval-100K开启了文本到视觉内容评估的新时代，同时Q-Eval-Score提供一个开源的较为准确客观的AIGC打分框架，可用于对AIGC图片视频生成类模型的评估。

Q-Eval-100K数据集共计包含了100K的AIGC生成数据（其中包含60k的AIGC图片以及40k的AIGC视频）。

接下来，将对Q-Eval-100K数据集与Q-Eval-Score评估框架进行详细介绍。

数据集构建

在数据集构建上，团队确保遵循三个原则：

1）保证数据多样性。为了收集到接近真实场景下多样性的数据集，团队从三个大的维度出发构建了对应的prompt集，这三个大的维度可以被划分为实体生成（people，objects,animals,etc.），实体属性生成（clothing,color,material,etc.），交叉能力项（backrgound，spatialrelationship,etc.），通过对于不同维度数据的比例控制，确保了prompt数据的多样性。同时，团队还使用了当前SOTA开源或者API的AIGC模型进行数据生成，从而确保了生成数据的高质量。这些AIGC模型包括FLUX，Lumina-T2X，PixArt，StableDiffusion 3，CogVideoX，Runway GEN-3，Kling等。

2）高质量的数据标注。团队招募了200多名经过培训的人员进行人工打分标注，从这些人员手中收集了超过960k条相关数据的打分信息。经过人工严格的筛选和过滤后，最终得到了这100k AIGC数据以及其对应的一致性/质量标注数据。通过这样的方式，可以确保标注数据与人类偏好的高度一致性，从而提升了Q-Eval-Score评估框架的一致性与泛化能力。

3）视觉质量和文本一致性解耦标注。团队观察到当前对于AIGC模型质量的研判主要聚焦于视觉质量和文本一致性两个方面，因此，在数据集构建的过程当中将两个维度拆分开标注，以确保Q-Eval-Score可以同时对这两个维度进行评估。如下图所示，在统计了多个AIGC模型的视觉质量和文本一致性mos分后，团队发现两个维度上模型的表现存在一定的差异性，因此也说明了将两个维度解耦的必要性。