2024-12-03,由浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团联合创建的LAION-SG数据集,通过提供高质量的场景图(SG)结构注释,显著提升了复杂场景图像生成的性能,为图像-文本模型训练带来了革命性的进步。
一、研究背景:
随着文本到图像(T2I)生成技术的发展,我们能够从文本提示中生成高质量的图像。然而,现有模型在生成涉及多个对象和复杂关系的复合图像时表现不佳,这限制了复杂场景图像生成的质量和准确性。
目前遇到困难和挑战:
1、现有图像-文本数据集缺乏精确的对象间关系注释,仅依赖于提示文本。
2、复杂场景的语义结构表示不足,导致生成的图像在对象和关系上与文本描述不一致。
3、现有基准测试主要集中在基于文本的图像生成,缺乏对复杂场景生成能力的全面评估。
数据集地址:<LAION-SG|图像理解数据集>
二、让我们一起看一下LAION-SG数据集
LAION-SG是一个大规模、高质量的结构化图像-文本数据集,通过场景图精确描述图像中对象的属性和关系。
LAION-SG数据集基于LAION-Aesthetics V2(6.5+)构建,包含540,005个图像-文本对,每个图像都配有详细的场景图注释,描述了图像中多个对象的属性和关系。
数据集构建:
数据集的构建采用了自动化的注释流程,利用GPT-4o模型生成场景图,包括对象识别、属性分配和关系描述。
数据集特点:
1、包含高视觉质量的图像。
2、场景图注释精确描述了对象的属性和关系。
3、支持复杂场景的生成,提高了图像生成的复杂性和保真度。
数据集可以用于训练和评估图像-文本模型,特别是那些需要理解复杂场景和生成高质量图像的模型。用户可以通过场景图的结构化信息来指导图像的生成过程。
基准测试 :
CompSG-Bench基准测试,用于评估模型在复杂场景生成方面的表现,包括图像质量、目标内容的准确性等多个维度。
文本到图像(T2I)模型SDXL[31]和SDXL-SG(一个带有结构化注释指导的T2I模型)在面对不同数量关系时生成的图像。对于一到两个关系,两个模型都能准确生成图像。当处理三个或四个关系时,T2I模型无法生成“持有”和“面向”的关系。对于超过四个关系的情况,T2I模型的局限性变得更加明显。在(e)和(f)中,分别有三个和两个关系生成错误。相比之下,SDXL-SG准确地捕捉到了生成图像中的关系。
LAION-SG 数据集的构建流程:
1) 识别图像中的对象并为每个对象分配一个唯一的 ID。
2) 属性必须是抽象的形容词,不应包含特定的对象。每个对象可以具有一个或多个属性。
3) 对象之间的关系应尽可能具体,避免简单的关系。使用更精确的动词,尽量减少重复。
4) 对于人物,将对象标记为“人物”,并包含性别和年龄等属性。避免拟人化或关联,并客观描述在图像中观察到的内容。
LAION-SG 的标注分布:
(a) 场景图的长度范围很广。与单个单词的描述相比,我们的注释提供了更具体的信息,同时也避免了由于注释过长而导致的模型学习效率低下。
(b) 前 10 个关系和属性仅占总分布的一小部分,表明 LAION-SG 涵盖了高度多样化的注释范围,展示了其庞大规模和开放的词汇表
每个样本的对象数量和长度,以及不同注释类型的 300 个样本的平均准确率。
LAION-SG 的视觉比较。比较的方法包括 T2I 模型 (SDXL [31])和 SG2IM 模型 (SGDiff [50] 和 SG-Adapter [40])。第一列显示了 LAION-Aesthetics 的原始标题。第二列显示 LAION-SG 的场景图。最后五列显示真实图像和由不同模型生成的图像。对象或关系在场景图和生成的图像中以相同的颜色突出显示,以表明 SDXL-SG 成功捕获了复杂的场景。
COCO-Stuff、Visual Genome 和 LAION-SG (LS) 的结果。第一和第二最佳选项以粗体和下划线显示。
现有 T2I 和 SG2IM 模型以及我们的基准模型在复杂场景生成基准上的结果。最佳图标以粗体显示,次佳图标以下划线显示。
消融研究的结果。属性表示数据比例。
三、让我们一起展望LAION-SG 数据集应用场景
比如:我们有一个图像,内容是一个公园场景,其中包含了一个小孩在秋千上,背景中有树木和长椅,天空中有飞鸟。我们的目标是构建一个VQA模型,能够理解这张图片的内容,并回答与图片相关的问题。
图像和场景图。
首先,我们使用LAION-SG数据集为这张图片生成一个场景图。场景图将包含以下信息:
对象:小孩、秋千、树木、长椅、飞鸟
属性:小孩(快乐),秋千(蓝色),树木(绿色),长椅(木质),飞鸟(飞翔)
关系:小孩在使用秋千,树木在背景中,长椅在旁边,飞鸟在天空中
问题和回答
1、问题:图片中的小孩在做什么?
回答:小孩正在使用秋千。
2、问题:背景中有什么?
回答:背景中有树木。
3、问题:公园里还有什么其他的设施?
回答:公园里还有长椅。
3、问题:图片中是否有动物?
回答:是的,图片中有飞鸟。
4、问题:秋千是什么颜色的?
回答:秋千是蓝色的。
模型构建和推理过程:
1、模型输入:VQA模型接收两个输入,一个是图像本身,另一个是自然语言形式的问题。
2、图像理解:模型首先使用图像识别技术(如CNN)提取图像的视觉特征。然后,利用LAION-SG数据集提供的场景图,模型能够理解图像中的对象、属性和关系。
3、问题理解:模型使用自然语言处理技术(如BERT)提取问题的语义特征。
4、特征融合:模型将图像的语义特征和问题的特征结合起来,进行推理。
5、答案生成:模型根据融合后的特征,从预先定义的答案候选中选择最合适的答案。
通过这个案例展示LAION-SG数据集在视觉问答任务中的潜力,它通过提供精确的场景图注释,极大地增强了模型对图像内容的理解和推理能力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。