SOEBench：一个包含4000个小目标对象，专门用于评估基于文本的小目标生成和编辑性能。

2024-11-03，由浙江工业大学、香港大学、悉尼大学等联合创建SOEBench，为量化评估基于文本的小目标生成提供了一个标准化的基准，这对于推动AI和计算机视觉领域中精确图像生成技术的发展具有重要意义。

一、研究背景：

SOEBench数据集的研究背景基于文本引导的图像编辑技术的发展需求，尤其是针对小目标的生成和编辑。随着扩散模型在图像生成和编辑任务中的成功应用，小目标的精确生成成为了一个新的挑战，因为这些模型在理解和生成小目标时面临对齐文本描述和视觉对象的困难。

目前遇到困难和挑战：

1、小目标难以聚焦：在图像中，小目标占据的面积较小，模型难以准确聚焦并生成与文本描述相匹配的目标。

3、跨模态特征对齐问题：在进行多级跨模态特征对齐时，小目标在注意力图中仅占据极小的区域，难以被模型有效关注。

4、编辑精度要求高：小目标编辑任务要求模型在保持与原始图像周围上下文的一致性的同时，精确地在期望的小区域内进行编辑，这在技术上是一个挑战。

数据集地址：SOEBench|计算机视觉数据集|图像生成数据集

二、让我们来一起看一下SOEBench数据集

SOEBench（Small Object Editing Benchmark）：是一个标准化基准数据集，专门用于评估基于文本的小目标生成和编辑性能。

包含了从MSCOCO和OpenImage数据集中精选的4000个小目标对象，这些对象在图像中占据的面积小于1/6但大于1/8，确保了在最深的U-Net特征图中的表示大于一个像素，从而为有效生成提供了可能。

数据集构建：

SOEBench通过精确的标准从MSCOCO和OpenImage数据库中选择对象，确保所选对象不被图像中的其他元素遮挡，并且对象大小符合特定的尺寸要求。

数据集特点：

1、专注于小物体编辑性能评估：在定量评估基于文本的小物体编辑性能，精选自MSCOCO和OpenImage数据库，包含4000个物体，专注于小物体生成实验。

2、严格的物体尺寸比例控制：确保所选物体不被其他元素遮挡，并严格控制物体尺寸比例，以适应现实世界物体识别场景。

3、细分为两个子集：SOEBench分为SOE-2k和SOE-4k两个子集，分别包含2000个物体，覆盖约300种常见物体类别。

基准测试：

SOEBench数据集允许在不同的模型上评估小目标编辑的有效性，并包括SOE-2k和SOE-4k两个子集，一共包含4000个来自OpenImage和MSCOCO的数据对象，用于编辑。

        我们的多尺度联合注意力引导方法与传统的基于文本的图像绘画方法之间的比较。

                        我们提议的 SOE 的推理管道

                            交叉注视地图的插图

            从对象类别、基准大小和蒙版大小等不同方面将我们的基准测试与现有作品进行比较。

本地注意力主要用于纠正 𝒜 与主对象对应的掩码区域内的语义信息，确保它与正确的内容保持一致。全局注意力指南收集 𝒜 所有工作令牌，主要目的是在生成 𝒜 the 和 latent code 的过程中准确区分主要对象之外的不重要细节。

我们的方法在 SOEBench 数据集上的定性结果。每个集的第一列包含原始图像、蒙版和文本。第二列显示 SD-I 模型的结果，第三列显示 SD-I+Ours 的结果。

用户偏好研究。我们将免训练方法的性能与基线 Stable-Diffuion Inpainting 进行了比较。我们的方法在图像质量和提示对齐研究方面都优于基线。

三、展望数据集的应用

比如，我是一名野生动物摄影师，

最近我拍摄了一张壮观的非洲大草原照片，照片中有一群大象在远处的地平线上，画面非常震撼。但是，我注意到在画面的一角，有一只颜色不太协调的小鸟，它的颜色与整体画面不太搭配，我想要改变这只鸟的颜色，让它更融入环境。我需要手动使用图像编辑软件，用Photoshop，来一点一点地调整这只鸟的颜色。这个过程可能非常耗时，因为我需要小心翼翼地选中这只小鸟，然后逐个调整色彩平衡、色相/饱和度等参数，确保改变后的颜色与周围环境协调。如果小鸟在画面中非常小，这个工作就更加困难，因为我需要非常精细的控制，以避免影响到周围的草地或其他动物。

现在有了SOEBench数据集后训练的AI图像编辑工具
我可以使用AI图像编辑工具这个工具，它能够理解我的文本指令，比如我输入“将照片中的小鸟颜色调整为与周围环境协调的绿色”，AI工具就会自动识别照片中的小鸟，并根据我的指令进行颜色调整。这个过程非常快速，因为它是基于深度学习和文本引导的图像编辑技术，能够精确地定位小目标并进行编辑。

具体来说，我只需要上传我的照片到这个AI工具中，然后输入我的编辑需求。工具会显示一个界面，让你可以选择小鸟所在的区域，并提供一个颜色板供你选择新的颜色。你可以选择一个与周围环境更协调的颜色，或者让AI根据周围环境自动推荐一个颜色。然后，AI工具会生成一个编辑后的版本，我可以看到小鸟的颜色已经变得和周围的草地融为一体，而且编辑非常自然，没有明显的编辑痕迹。

这个AI工具之所以能够做到这一点，是因为它在SOEBench数据集上进行了训练，这个数据集包含了大量的小目标编辑样本，让AI学会了如何精确地识别和编辑照片中的小物体。这样，我就不需要手动进行复杂的调整，节省了大量的时间和精力，而且编辑结果更加自然和准确。让我的摄影作品更加的完美。

更多开源的数据集，请打开：遇见数据集

https://www.selectdataset.com/

SOEBench：一个包含4000个小目标对象，专门用于评估基于文本的小目标生成和编辑性能。

一、研究背景：

目前遇到困难和挑战：

二、让我们来一起看一下SOEBench数据集

数据集构建：

数据集特点：

基准测试：

三、展望数据集的应用

更多开源的数据集，请打开：遇见数据集

数据猎手小k

引用和评论

AMO数据集：解决运动模仿偏差的超灵巧人形机器人全身控制混合数据集。

最全糖尿病数据集（不定时更新）

Chinese SimpleQA：包含3000个高质量问题，用来评估大型语言模型中文事实性能力的基准测试.

DAPO-Math-17K：17000数学题整数答案数据集，为LLM强化学习设计，确保准确奖励信号。

SCB-Dataset3：首个涵盖从幼儿园到大学的多行为类别学生课堂行为检测数据集

Git-10M :一个全球规模的遥感图像-文本对数据集，包含1000万图像-文本对，覆盖广泛的地理场景和丰富的地理空间元数据。

UAV-VisLoc：一个包含中国11个地点、6742张无人机图像和11幅卫星地图的大规模视觉定位数据集。

SOEBench：一个包含4000个小目标对象，专门用于评估基于文本的小目标生成和编辑性能。

一、研究背景：

目前遇到困难和挑战：

二、让我们来一起看一下SOEBench数据集

数据集构建 ：

数据集特点：

基准测试 ：

三、展望数据集的应用

更多开源的数据集，请打开：遇见数据集

数据猎手小k

引用和评论

AMO数据集：解决运动模仿偏差的超灵巧人形机器人全身控制混合数据集。

最全糖尿病数据集（不定时更新）

Chinese SimpleQA：包含3000个高质量问题，用来评估大型语言模型中文事实性能力的基准测试.

DAPO-Math-17K：17000数学题整数答案数据集，为LLM强化学习设计，确保准确奖励信号。

SCB-Dataset3：首个涵盖从幼儿园到大学的多行为类别学生课堂行为检测数据集

Git-10M :一个全球规模的遥感图像-文本对数据集，包含1000万图像-文本对，覆盖广泛的地理场景和丰富的地理空间元数据。

UAV-VisLoc：一个包含中国11个地点、6742张无人机图像和11幅卫星地图的大规模视觉定位数据集。

数据集构建：

基准测试：