头图

2025-03-14,由 CUHK MMLab、HKU、SenseTime、上海人工智能实验室、清华大学和北航等机构联合创建的 Generation Chain-of-Thought (GoT) 数据集,这是一个包含超过 900 万样本的大规模数据集,涵盖详细的语义-空间推理链。这个数据集为视觉生成和编辑任务提供了强大的推理能力支持,推动了多模态大语言模型在视觉领域的应用,使生成的图像更符合人类意图。

一、研究背景

当前的图像生成和编辑方法主要依赖于将文本提示直接映射到视觉元素,而缺乏对视觉组成和显式操作的推理能力。虽然多模态大语言模型在复杂推理任务上表现出色,但现有的图像生成系统未能充分利用其推理能力。因此,如何将语言模型的推理机制融入视觉生成和编辑是一个亟待解决的问题。

目前遇到的困难和挑战:

缺乏推理能力:现有的图像生成方法在处理复杂场景时,难以精确安排对象的空间关系和交互,因为它们没有显式推理能力。

数据集不足:构建推理链数据集需要同时包含语义和空间信息,而现有的数据集无法满足这种需求。

模型架构限制:现有的扩散模型无法直接利用显式的语言推理链进行视觉生成,需要设计新的框架来支持推理和生成的端到端流程。

数据集地址:GoT Dataset|计算机视觉数据集|自然语言处理数据集

二、让我们一起来看一下GoT

Generation Chain-of-Thought (GoT) 数据集 : 一个包含超过 900 万样本的大规模数据集,涵盖详细的语义-空间推理链,用于支持视觉生成和编辑任务。

数据集构建:

文本到图像生成:文本到图像生成部分包含 840 万图像样本。从 Laion-Aesthetics、JourneyDB 和 FLUX 数据集中提取图像,并通过 Qwen2-VL 和 Qwen2.5 模型生成详细的语义描述和空间坐标。

图像编辑:图像编辑部分包含 92 万样本。基于 OmniEdit 和 SEED-Edit-Multiturn 数据集,通过模型生成详细的推理链,包括源图像描述、目标图像描述和编辑指令。

数据集特点:

大规模:包含超过 900 万样本,涵盖丰富的语义和空间信息。

语义-空间推理链:每个样本都包含详细的推理链,明确标注了对象的语义关系和空间位置。

多任务支持:同时支持文本到图像生成和图像编辑任务。

数据集使用方法:

该数据集可用于训练多模态大语言模型,使其能够生成详细的推理链,并通过推理链指导图像生成和编辑任务。此外,数据集还支持交互式生成,用户可以通过修改推理链来调整生成的图像。

基准测试:

GoT 数据集在多个基准测试中表现出色,包括 GenEval 和 ImagenHub 等,显著优于现有的图像生成和编辑方法。

图片

                具有语义空间推理的生成链式思维(GoT)

图片

                    GoT数据集构建流程

图片

                    具有语义空间引导的 GoT 框架

图片
由我们的模型生成的文本到图像样本。GoT 框架能够根据输入的描述规划物体放置,并相应地生成高度一致且美观的图像
图片
使用 GoT 框架进行交互式生成的示例。通过修改 GoT 内容(描述和边界框位置),用户可以自定义其文本到图像的过程,包括:1. 对象替换 2. 对象位置调整 3. 对象属性修改。
图片
图像编辑的定性结果。我们的 GoT 框架在需要语义空间推理的场景中表现出色。红色边框表示 GoT 框架内 MLLM 预测的坐标。

三、让我们来看一下GoT的应用场景

比如你正在设计一张海报,想在海报的海边场景中添加一艘帆船。你首先用GoT框架输入了一个基础的文本描述:“在海边有一艘帆船,帆船的帆是白色的,海面波光粼粼,远处有几只海鸥在飞翔。”GoT框架根据这个描述生成了一幅图像,但你发现帆船的位置有点靠左,不符合你想要的构图。
于是,你开始利用GoT的交互式功能。你进入推理链的编辑界面,找到描述帆船位置的部分,原本的推理链是这样的:“帆船位于图像左侧,坐标范围为(100, 100)到(300, 300)”。你直接修改坐标范围为“(400, 100)到(600, 300)”,也就是把帆船向右移动。
修改完后,你点击“更新图像”,GoT框架根据新的推理链重新生成图像。这回,帆船的位置就正好在你想要的中间位置,整个海报的构图看起来更加平衡和谐。
这种交互式功能真的很强大,你可以像调整文字一样去调整图像中的元素,而且操作过程非常直观,完全不需要复杂的代码或者专业软件。

更多开源的数据集,请打开:遇见数据集

https://www.selectdataset.com/


数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。