头图

2025-03-28,由华中科技大学的研究团队创建一种创新的水下数据合成方法 TIDE(Text-to-Image and DEnse annotation generation method)。该方法仅依赖文本输入,就能同时生成逼真的水下图像和多种高度一致的密集注释(如深度图和语义分割掩码)。TIDE 的出现有效缓解了水下场景中高质量、大规模密集注释数据稀缺的问题,为水下密集预测任务(如深度估计和语义分割)提供了强大的数据支持,有望推动水下视觉技术的发展,并为其他领域数据稀缺问题提供新思路。

一、研究背景

水下密集预测,尤其是深度估计和语义分割,对于水下探索、环境监测以及海洋资源开发等任务至关重要。这些技术能够帮助我们全面理解水下场景,为相关决策提供依据。例如,在海洋考古中,通过深度估计和语义分割可以快速定位沉船等遗迹;在海洋生态研究中,能够精准识别和分析不同生物及其栖息环境。

目前遇到困难和挑战:

1、数据采集成本高昂:水下环境复杂多变,数据采集需要专业的设备、潜水员以及大量的时间和人力投入。例如,获取水下深度数据通常需要使用声呐等专业设备,并且需要在不同的水下环境中进行多次测量,这使得大规模数据采集变得极其困难且成本高昂。

2、数据标注难度大:水下图像的标注需要专业的知识和技能,尤其是对于一些复杂的水下生物和地形。例如,准确标注水下珊瑚礁的语义分割掩码需要海洋生物学家的参与,而且标注过程繁琐耗时,进一步限制了数据集的规模和多样性。

3、现有数据集规模和质量不足:目前虽然有一些水下数据集,但它们大多规模较小,且注释类型单一,无法满足复杂水下场景理解的需求。例如,某些数据集只包含少量的水下图像及其简单的语义分割掩码,缺乏深度信息等其他密集注释,导致基于这些数据集训练的模型泛化能力有限。

数据集地址:SynTIDE|水下图像处理数据集|计算机视觉数据集

二、让我们一起来看一下SynTIDE

SynTIDE :一个大规模的合成水下图像数据集,包含丰富的水下场景图像及其对应的深度图和语义分割掩码,由 TIDE 方法基于文本生成。

SynTIDE 数据集涵盖了多种典型的水下场景,如珊瑚礁、沉船遗址、水下生物栖息地等。每个场景的图像都配有高质量的深度图,能够精确反映水下物体和地形的深度信息;同时,语义分割掩码详细标注了图像中的不同物体类别,如鱼类、珊瑚、岩石等。这些数据为水下视觉任务提供了全面且多样化的训练样本。

数据集构建:

研究人员首先收集了约 14K 张带有语义分割掩码的水下图像作为基础数据。然后,利用预训练的 Depth Anything 模型为每张图像生成对应的深度图,并通过 BLIP2 模型获取图像的文本描述。接着,基于这些文本描述,使用 TIDE 方法生成了大量新的水下图像及其深度图和语义分割掩码,最终构建了 SynTIDE 数据集。

数据集特点:

1、大规模:包含大量的水下图像及其密集注释,能够满足不同水下视觉任务的训练需求。

2、多样性:涵盖了多种水下场景和物体类别,反映了水下环境的复杂性和多样性。

3、高质量:生成的图像和注释具有较高的质量和一致性,能够有效提升水下视觉模型的性能。

3、可扩展性:基于文本生成的方式使其具有很强的可扩展性,可以根据需要生成更多特定场景或物体的数据。

基准测试:

在水下深度估计任务中,使用 SynTIDE 数据集训练的多种深度估计模型(如 NewCRFs、PixelFormer 等)在 Sea-thru 数据集的 D3 和 D5 子集以及 SQUID 数据集上均取得了显著的性能提升,相较于之前使用 Atlantis 数据集训练的模型,在多个定量评估指标上都有明显改进,如 S⁢Il⁢o⁢g𝑆subscript𝐼𝑙𝑜𝑔SI_{log} 和 δ1subscript𝛿1\delta_{1} 等指标。在水下语义分割任务中,以 SynTIDE 数据集进行预训练的模型在 UIIS 和 USIS10K 数据集上也表现出色,提升了模型的分割精度,例如在 ViT-Adapter 模型上,预训练后 mIoU 提升了 2.1%。

图片
我们提出了 TIDE,一个统一的水下图像密集注释生成模型。 它的核心在于共享的布局信息和多模式特征之间的自然互补性。我们的模型源自文本到图像模型,并使用水下数据进行了微调,能够仅从文本条件生成高度一致的水下图像密集注释。
图片
Atlantis 和我们的方法之间的比较。与需要文本和深度图条件的 Atlantis 不同,我们的方法只需要文本作为输入条件来生成图像密集的注释(例如,深度图和语义掩码)。
图片

                                训练和推理

TIDE(Text-to-Image Denoising model)的模型的训练和推理阶段:

一、训练阶段

1、输入数据:

图像:输入的图像数据。

深度图:输入的深度图数据。

掩码:输入的语义掩码数据。

2、VAE编码器:

图像、深度图和掩码分别通过VAE(变分自编码器)编码器进行编码,生成对应的特征表示。

3、文本编码器

输入的文本描述(例如“Underwater Scene Caption”)通过文本编码器进行编码,生成文本特征表示。

4、Transformer模型

图像、深度图和掩码的特征表示分别通过各自的Transformer模块进行处理。每个Transformer模块包含多个“Block”。

在这些Block中,使用了两种类型的块:

T2D Block(蓝色):用于文本到图像的转换。

T2M Block(黄色):用于文本到深度图的转换。

这些Block之间通过“TAN”(Time Adaptive Normalization,时间自适应归一化)进行特征对齐。

还有一个“Implicit Layout Sharing Mechanism”(隐式布局共享机制),用于在不同模态之间共享信息。

5、损失函数

训练过程中,模型通过最小化损失函数来优化参数。

二、推理阶段

1、输入数据:

输入文本描述(例如“Underwater Scene Caption”)。

2、文本编码器:

文本描述通过文本编码器生成文本特征表示。

3、TIDE模型:

文本特征表示输入到TIDE模型中,生成图像、深度图和掩码。

4、VAE解码器:

生成的图像、深度图和掩码通过VAE解码器进行解码,得到最终的输出结果。

通过这些组件的协同工作,TIDE模型能够将文本描述转换为高质量的图像、深度图和语义掩码。

图片

        分割数据集和数据分割。⋆ 表示 TIDE 的训练集,而其他用于评估。

图片

                            水下语义分割的定量结果。

图片

                        TIDE 生成的更具挑战性的水下数据。

图片

                            生成的数据多样性的可视化

三、展望SynTIDE应用场景

比如有个水下机器人叫“小K”,它被派去执行一个特别重要的任务——检查海底的一段输油管道。这段管道埋在海底的沙子里,周围环境还挺复杂的,有各种各样的海底生物,还有些乱七八糟的石头和废弃的渔网。

出发前的准备: 出发之前,“小K”已经加载了我们用 SynTIDE 数据集训练好的深度估计模型和语义分割模型。这两个模型就像是它的“眼睛”,能帮它看清楚海底的情况。

开始巡检: “小K”慢慢地在海底游动,它的“眼睛”开始工作啦。

深度估计的作用 首先,深度估计模型开始发挥作用。它就像一个超级厉害的“深度探测仪”,能实时感知周围环境的深度变化。比如,当“小K”靠近海底的时候,深度估计模型会告诉它:“嘿,这里水深 30 米,前面有个小坡,水深变浅了,只有 25 米。” 这样,“小K”就能提前调整自己的高度,避开海底的障碍物,比如那些凸起的石头或者珊瑚礁。

语义分割的作用 接着,语义分割模型也开始工作了。它就像是一个“智能识别器”,能识别出海底的各种物体和地形特征。当“小K”游过一段管道的时候,语义分割模型会告诉它:“嘿,这里有一根输油管道,它很完整,没有裂缝。” 但是,当它游到管道的某个部分时,模型突然发现:“不好,这里有个裂缝!” 这时候,“小K”就会停下来,仔细检查这个裂缝的位置和大小,并且把相关信息记录下来,方便后续的维修人员来处理。

遇到复杂情况 在巡检过程中,“小K”还遇到了一些复杂的情况。比如,海底有一些废弃的渔网,这些渔网可能会缠住管道,甚至可能会缠住“小K”自己。这时候,语义分割模型就能识别出这些渔网,并且告诉“小K”:“嘿,前面有渔网,小心点!” 这样,“小K”就能提前避开这些危险,继续完成它的任务。

完成任务 经过几个小时的努力,“小K”终于完成了巡检任务。它把所有发现的问题都记录了下来,包括管道的裂缝位置、周围的障碍物情况等。这些信息对于维修人员来说非常重要,他们可以根据这些信息制定维修计划,及时修复管道,保证输油管道的安全运行。

你看,“小K”在执行任务的时候,深度估计和语义分割就像是它的两个超级助手,帮助它看清楚海底的情况,避开危险,顺利完成任务。这就是 SynTIDE 数据集在水下机器人导航中的一个具体应用啦,是不是很厉害呀!Nice.

更多免费的数据集,请打开:遇见数据集
https://www.selectdataset.com/


数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。