SynTIDE：首个基于文本生成水下图像与密集注释数据集

2025-03-28，由华中科技大学的研究团队创建一种创新的水下数据合成方法 TIDE（Text-to-Image and DEnse annotation generation method）。该方法仅依赖文本输入，就能同时生成逼真的水下图像和多种高度一致的密集注释（如深度图和语义分割掩码）。TIDE 的出现有效缓解了水下场景中高质量、大规模密集注释数据稀缺的问题，为水下密集预测任务（如深度估计和语义分割）提供了强大的数据支持，有望推动水下视觉技术的发展，并为其他领域数据稀缺问题提供新思路。

一、研究背景

水下密集预测，尤其是深度估计和语义分割，对于水下探索、环境监测以及海洋资源开发等任务至关重要。这些技术能够帮助我们全面理解水下场景，为相关决策提供依据。例如，在海洋考古中，通过深度估计和语义分割可以快速定位沉船等遗迹；在海洋生态研究中，能够精准识别和分析不同生物及其栖息环境。

目前遇到困难和挑战：

1、数据采集成本高昂：水下环境复杂多变，数据采集需要专业的设备、潜水员以及大量的时间和人力投入。例如，获取水下深度数据通常需要使用声呐等专业设备，并且需要在不同的水下环境中进行多次测量，这使得大规模数据采集变得极其困难且成本高昂。

2、数据标注难度大：水下图像的标注需要专业的知识和技能，尤其是对于一些复杂的水下生物和地形。例如，准确标注水下珊瑚礁的语义分割掩码需要海洋生物学家的参与，而且标注过程繁琐耗时，进一步限制了数据集的规模和多样性。

3、现有数据集规模和质量不足：目前虽然有一些水下数据集，但它们大多规模较小，且注释类型单一，无法满足复杂水下场景理解的需求。例如，某些数据集只包含少量的水下图像及其简单的语义分割掩码，缺乏深度信息等其他密集注释，导致基于这些数据集训练的模型泛化能力有限。

数据集地址：SynTIDE|水下图像处理数据集|计算机视觉数据集

二、让我们一起来看一下SynTIDE

SynTIDE ：一个大规模的合成水下图像数据集，包含丰富的水下场景图像及其对应的深度图和语义分割掩码，由 TIDE 方法基于文本生成。

SynTIDE 数据集涵盖了多种典型的水下场景，如珊瑚礁、沉船遗址、水下生物栖息地等。每个场景的图像都配有高质量的深度图，能够精确反映水下物体和地形的深度信息；同时，语义分割掩码详细标注了图像中的不同物体类别，如鱼类、珊瑚、岩石等。这些数据为水下视觉任务提供了全面且多样化的训练样本。

数据集构建：

研究人员首先收集了约 14K 张带有语义分割掩码的水下图像作为基础数据。然后，利用预训练的 Depth Anything 模型为每张图像生成对应的深度图，并通过 BLIP2 模型获取图像的文本描述。接着，基于这些文本描述，使用 TIDE 方法生成了大量新的水下图像及其深度图和语义分割掩码，最终构建了 SynTIDE 数据集。

数据集特点：

1、大规模：包含大量的水下图像及其密集注释，能够满足不同水下视觉任务的训练需求。

2、多样性：涵盖了多种水下场景和物体类别，反映了水下环境的复杂性和多样性。

3、高质量：生成的图像和注释具有较高的质量和一致性，能够有效提升水下视觉模型的性能。

3、可扩展性：基于文本生成的方式使其具有很强的可扩展性，可以根据需要生成更多特定场景或物体的数据。

基准测试：

在水下深度估计任务中，使用 SynTIDE 数据集训练的多种深度估计模型（如 NewCRFs、PixelFormer 等）在 Sea-thru 数据集的 D3 和 D5 子集以及 SQUID 数据集上均取得了显著的性能提升，相较于之前使用 Atlantis 数据集训练的模型，在多个定量评估指标上都有明显改进，如 S⁢Il⁢o⁢g𝑆subscript𝐼𝑙𝑜𝑔SI_{log} 和 δ1subscript𝛿1\delta_{1} 等指标。在水下语义分割任务中，以 SynTIDE 数据集进行预训练的模型在 UIIS 和 USIS10K 数据集上也表现出色，提升了模型的分割精度，例如在 ViT-Adapter 模型上，预训练后 mIoU 提升了 2.1%。

我们提出了 TIDE，一个统一的水下图像密集注释生成模型。它的核心在于共享的布局信息和多模式特征之间的自然互补性。我们的模型源自文本到图像模型，并使用水下数据进行了微调，能够仅从文本条件生成高度一致的水下图像密集注释。

Atlantis 和我们的方法之间的比较。与需要文本和深度图条件的 Atlantis 不同，我们的方法只需要文本作为输入条件来生成图像密集的注释（例如，深度图和语义掩码）。

                                训练和推理

TIDE（Text-to-Image Denoising model）的模型的训练和推理阶段：

一、训练阶段

1、输入数据：

图像：输入的图像数据。

深度图：输入的深度图数据。

掩码：输入的语义掩码数据。

2、VAE编码器：

图像、深度图和掩码分别通过VAE（变分自编码器）编码器进行编码，生成对应的特征表示。

3、文本编码器

输入的文本描述（例如“Underwater Scene Caption”）通过文本编码器进行编码，生成文本特征表示。

4、Transformer模型

图像、深度图和掩码的特征表示分别通过各自的Transformer模块进行处理。每个Transformer模块包含多个“Block”。

在这些Block中，使用了两种类型的块：

T2D Block（蓝色）：用于文本到图像的转换。

T2M Block（黄色）：用于文本到深度图的转换。

这些Block之间通过“TAN”（Time Adaptive Normalization，时间自适应归一化）进行特征对齐。

还有一个“Implicit Layout Sharing Mechanism”（隐式布局共享机制），用于在不同模态之间共享信息。

5、损失函数

训练过程中，模型通过最小化损失函数来优化参数。

二、推理阶段

1、输入数据：

输入文本描述（例如“Underwater Scene Caption”）。

2、文本编码器：

文本描述通过文本编码器生成文本特征表示。

3、TIDE模型：

文本特征表示输入到TIDE模型中，生成图像、深度图和掩码。

4、VAE解码器：

生成的图像、深度图和掩码通过VAE解码器进行解码，得到最终的输出结果。

通过这些组件的协同工作，TIDE模型能够将文本描述转换为高质量的图像、深度图和语义掩码。

        分割数据集和数据分割。⋆ 表示 TIDE 的训练集，而其他用于评估。

                            水下语义分割的定量结果。

                        TIDE 生成的更具挑战性的水下数据。

                            生成的数据多样性的可视化

三、展望SynTIDE应用场景

比如有个水下机器人叫“小K”，它被派去执行一个特别重要的任务——检查海底的一段输油管道。这段管道埋在海底的沙子里，周围环境还挺复杂的，有各种各样的海底生物，还有些乱七八糟的石头和废弃的渔网。

出发前的准备：出发之前，“小K”已经加载了我们用 SynTIDE 数据集训练好的深度估计模型和语义分割模型。这两个模型就像是它的“眼睛”，能帮它看清楚海底的情况。

开始巡检： “小K”慢慢地在海底游动，它的“眼睛”开始工作啦。

深度估计的作用首先，深度估计模型开始发挥作用。它就像一个超级厉害的“深度探测仪”，能实时感知周围环境的深度变化。比如，当“小K”靠近海底的时候，深度估计模型会告诉它：“嘿，这里水深 30 米，前面有个小坡，水深变浅了，只有 25 米。” 这样，“小K”就能提前调整自己的高度，避开海底的障碍物，比如那些凸起的石头或者珊瑚礁。

语义分割的作用接着，语义分割模型也开始工作了。它就像是一个“智能识别器”，能识别出海底的各种物体和地形特征。当“小K”游过一段管道的时候，语义分割模型会告诉它：“嘿，这里有一根输油管道，它很完整，没有裂缝。” 但是，当它游到管道的某个部分时，模型突然发现：“不好，这里有个裂缝！” 这时候，“小K”就会停下来，仔细检查这个裂缝的位置和大小，并且把相关信息记录下来，方便后续的维修人员来处理。

遇到复杂情况在巡检过程中，“小K”还遇到了一些复杂的情况。比如，海底有一些废弃的渔网，这些渔网可能会缠住管道，甚至可能会缠住“小K”自己。这时候，语义分割模型就能识别出这些渔网，并且告诉“小K”：“嘿，前面有渔网，小心点！” 这样，“小K”就能提前避开这些危险，继续完成它的任务。

完成任务经过几个小时的努力，“小K”终于完成了巡检任务。它把所有发现的问题都记录了下来，包括管道的裂缝位置、周围的障碍物情况等。这些信息对于维修人员来说非常重要，他们可以根据这些信息制定维修计划，及时修复管道，保证输油管道的安全运行。

你看，“小K”在执行任务的时候，深度估计和语义分割就像是它的两个超级助手，帮助它看清楚海底的情况，避开危险，顺利完成任务。这就是 SynTIDE 数据集在水下机器人导航中的一个具体应用啦，是不是很厉害呀！Nice.

更多免费的数据集，请打开：遇见数据集
https://www.selectdataset.com/

SynTIDE：首个基于文本生成水下图像与密集注释数据集

一、研究背景

目前遇到困难和挑战：

二、让我们一起来看一下SynTIDE

数据集构建：

数据集特点：

基准测试：

TIDE（Text-to-Image Denoising model）的模型的训练和推理阶段：

三、展望SynTIDE应用场景

数据猎手小k

引用和评论

DLC-Bench：由英伟达等机构联合创建的基准测试数据集，用于评估详细局部描述。

免费数据集网站（不定期更新）

Chinese SimpleQA：包含3000个高质量问题，用来评估大型语言模型中文事实性能力的基准测试.

DAPO-Math-17K：17000数学题整数答案数据集，为LLM强化学习设计，确保准确奖励信号。

GS-Blur数据集：首个基于3D场景合成的156,209对多样化真实感模糊图像数据集。

Git-10M :一个全球规模的遥感图像-文本对数据集，包含1000万图像-文本对，覆盖广泛的地理场景和丰富的地理空间元数据。

NAVCON：首个大规模基于认知和语言对齐的视觉语言导航预料库