2025-03-19,由上海交通大学、上海人工智能实验室、北京航空航天大学、中山大学和商汤研究联合创建的 SynthScars 数据集。该数据集的创建目的是解决现有合成图像检测数据集的局限性,为合成图像检测研究提供更具挑战性和实用性的基准。
一、研究背景
随着生成技术的快速发展,合成图像的生成变得越来越容易,其在创意设计、数据增强等方面带来了便利,但同时也引发了隐私侵犯、版权纠纷和虚假信息传播等社会问题。因此,合成图像检测技术的研究变得尤为重要,目的识别和定位合成图像中的伪影,以减少其带来的潜在危害。
目前遇到的困难和挑战:
1、数据集局限性:现有的合成图像检测数据集大多使用早期生成器生成的图像,这些图像质量较低,伪影明显且容易识别,导致基于这些数据集训练的模型难以检测出现代生成器生成的高质量合成图像。
2、伪影标注精度不足:一些数据集使用点标注或仅提供完整对象轮廓标注,无法精确描述现代合成伪影通常仅影响小区域的特点,导致模型在伪影定位和理解上存在困难。
3、检测方法的局限性:大多数现有方法侧重于图像操纵检测,缺乏对合成图像中伪影的细粒度分析和解释能力,难以提供可解释的检测结果,限制了其在实际应用中的价值。
数据集地址:SynthScars|医学图像分析数据集|图像分割数据集
二、让我们一起来看一下SynthScars
SynthScars 是一个高质量、多样化的合成图像检测数据集,包含 12,236 张全合成图像,提供像素级伪影分割、详细文本解释和伪影类别标签的细粒度标注。
图像内容类型:数据集涵盖人类、物体、动物和场景等 4 种不同的图像内容类型,能够满足多种研究需求。
伪影类别:包含物理、失真和结构 3 类伪影,涵盖了合成图像中可能出现的各种异常情况。
标注信息:每张图像都配有像素级的伪影分割标注,能够精确地定位伪影的位置;同时,还提供了详细的文本解释,帮助研究人员更好地理解伪影的性质和成因;此外,每种伪影都被赋予了类别标签,便于进行分类研究。
数据集构建:
数据预处理和质量控制:首先通过聚类预训练的 ResNet-50 特征表示进行源采样,然后采用多阶段过滤流程,利用 Qwen2-VL-72B-Instruct 模型去除低质量样本、非写实内容以及具有明显合成模式的样本,确保数据集的质量和多样性。
细粒度标注:采用不规则多边形掩码对合成图像中的伪影进行标注,能够精确地标注出任何形状、大小和位置的伪影。此外,还对伪影进行了细粒度分类,增强了数据集的清晰度和组织性。
数据集特点:
1、高质量和多样性:数据集中的图像均为高质量的合成图像,涵盖了多种内容类型和伪影类别,能够满足不同研究场景的需求。
2、细粒度标注:提供像素级伪影分割、详细文本解释和伪影类别标签的细粒度标注,为合成图像检测和分析提供了丰富的信息。
3、现实相关性:通过严格的筛选和标注流程,确保数据集中的图像和伪影与现实世界中的合成图像具有高度的相关性,有助于提高模型在实际应用中的泛化能力。
基准测试:
1、伪影定位任务:使用 mean Intersection over Union (mIoU) 和 F1 分数评估分割性能。
2、文本解释生成任务:采用 ROUGE-L 和余弦相似度分数 (CSS) 评估生成文本解释与真实标注的一致性。
3、图像检测任务:在 UniversalFakeDetect 基准上评估模型对不同生成器生成的合成图像的检测性能。
图像内容统计。SynthScars 包含各种真实场景,包括来自不同生成器的 12236 张完全合成的图像。
工件类型的统计数据。SynthScars 将构件分类为三种细粒度异常类型,总共包含 26566 个构件实例。
SynthScars 数据集。 (一) 显示四种不同内容类型的图像案例。 (二) 介绍不同细粒度工件类型的注释案例。 (三) 列举了以前数据集的缺点,SynthScars 完美地解决了这些缺点。
架构概述。
LEGION是一个先进的图像伪造分析和生成框架:
包括三个主要部分:图像伪造分析、图像伪造分析再生管道和图像修复管道。
(a) LEGION框架
1、输入:
- 图像通过全局图像编码器进行编码,生成图像令牌。
- 同时,使用分类令牌和多层感知机进行处理。
2、处理: - 图像令牌和分类令牌通过视觉-语言模型和大型语言模型进行处理。
- 生成的输出包括检测结果(真实或伪造)和分析结果(包括全局和局部的伪造分析)。
3、输出:
输出提示用于进一步的图像生成和修复。
(b)图像伪造分析再生管道:
1、初始提示:
使用初始或修订的提示进行图像生成。
2、迭代过程:
- 图像伪造分析和T2I模型迭代生成图像。
- 解释反馈用于改进生成过程。
3、记忆:
记忆模块存储初始反馈和迭代反馈,用于优化生成过程。
(c) 图像修复管道
1、区域处理:
- 图像被分成多个区域进行处理。
- 每个区域生成位置、掩码和解释三元组。
2、迭代修复: - 使用修复模型对每个区域进行迭代修复。
- 所有区域完成后,生成最终的修复图像。
LEGION框架通过结合图像编码、视觉-语言模型和大型语言模型,实现了对图像的详细伪造分析和高质量的图像生成。它不仅能够检测图像的真实性,还能提供详细的伪造分析,并生成高质量的图像。通过迭代反馈和记忆模块,LEGION能够不断优化生成过程,提高图像生成的准确性和质量。
不同方法的伪影分割和解释的比较:PAL4VST、InternVL2-8B 和我们提出的 LEGION,以及地面实况。
图像再生的案例研究
图像修案例研究
三、展望SynthScars数据集应用场景
新闻媒体中的图片真实性验证
比如在新闻媒体公司,记者和编辑们每天都会收到各种各样的图片素材。以前,他们主要靠经验和肉眼来判断图片是否真实。比如,记者小张收到一张照片,照片上是一场重大事件的现场,看起来很震撼。他心里犯嘀咕,因为这张照片的来源不太可靠。他只能仔细看看照片里的细节,比如人物的表情、背景的环境,看看有没有明显的破绽。如果发现背景有点模糊,或者人物的表情不太自然,他就会怀疑这张照片是不是被篡改过。但很多时候,这些破绽并不明显,小张只能凭感觉,心里没底。
编辑老王也一样,他收到记者们筛选后的图片,再进行一轮检查。他主要看图片的整体布局,看看有没有不符合常理的地方。比如,照片里的人和背景的比例是不是对得上,光线是不是自然。但这种方法很主观,而且很耗时间。有时候,他们还是会被一些高超的合成技术骗过去,导致虚假图片被误判为真实,甚至有可能传播出去。
现在有了 SynthScars 数据集带来的改变
有一天,技术团队的小李告诉小张和老王,他们开发了一个新的检测系统,这个系统是基于一个叫 SynthScars 的数据集训练的。这个数据集里的合成图像标注得很详细,系统学会了怎么识别合成图像的各种特征,尤其是那些很微妙的伪影。
小张和老王半信半疑,但还是决定试一试。有一天,他们又收到了一张照片,照片上是一场重大事件的现场,看起来很震撼,但来源不太可靠。小张心里又犯嘀咕了,他把这张照片上传到了新的检测系统。
系统开始工作,没过多久就给出了结果:这张图片确实有合成的痕迹!系统还标注出了伪影的位置,比如背景中有一块区域的颜色和周围不太一致,看起来像是被人为修改过;还有一个人物的轮廓有点奇怪,不符合正常的人体比例。小张仔细看了看系统标注的地方,确实觉得有点不对劲。他把这张照片和检测结果一起拿给编辑老王看。
老王看了看,说:“嗯,这确实有问题。背景那块颜色确实有点突兀,而且那个人物的腿看起来有点短,不太协调。看来这张照片是真的被合成过。” 于是,他们决定不使用这张照片,并且在社交媒体上发布了一条辟谣消息,提醒大家不要轻信来源不明的图片。
几天后,他们发现有人在社交媒体上转发了那张合成的照片,声称这是真实的新闻现场。由于他们公司及时发布了辟谣消息,所以让很多网友都知道真相,反而对那些转发虚假照片的人进行了批评。这让小张和老王都松了一口气,他们觉得这个检测系统真的帮了大忙。
从那以后,小张和同事们对这个检测系统越来越信任,每次收到可疑的图片,都会第一时间上传检测。他们发现,这个系统不仅能快速识别出合成的图片,还能指出具体的伪影位置和原因,让他们心里有底。而且,这个系统还能生成详细的报告,方便他们在需要的时候向读者解释为什么这张图片不可信。
通过这个案例,你能清楚地看到 SynthScars 数据集带来的改变:它让新闻媒体在面对海量图片时,能够快速、准确地辨别真假,守护新闻的真实性。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。