头图

2025-01-02,由北京航空航天大学的研究团队创建了数据集Git-10M,这是一个包含1000万图像-文本对的全球规模遥感数据集。该数据集为文本驱动的遥感图像生成技术提供了强大的基础,显著提升了生成图像的多样性和质量,推动了遥感图像生成技术的发展。

一、研究背景

近年来,生成式基础模型在大规模文本驱动的自然图像生成领域取得了显著进展,并在多个垂直领域成为研究热点。然而,在遥感领域,大规模文本到图像(text2image)生成技术的研究仍相对匮乏。现有的遥感图像-文本数据集规模较小,且局限于特定地理区域和场景类型,难以满足全球尺度、多分辨率可控的图像生成需求。

目前遇到的困难和挑战:

1、数据集规模和多样性不足:现有遥感图像-文本数据集规模较小,且缺乏足够的地理场景多样性,通常局限于特定区域和场景类型。

2、模型能力有限:现有的生成模型难以捕捉全球尺度遥感场景的复杂结构特征,且缺乏对分辨率的控制能力,生成的图像分辨率不确定,无法满足用户指定的需求。

3、应用场景受限:现有模型大多局限于固定尺寸的图像生成,缺乏在多种文本驱动生成任务(如无边界场景构建和图像编辑)中的泛化能力,限制了其在实际应用中的灵活性。

数据集地址:Git-10M|遥感图像数据集|生成模型数据集

二、让我们一起来看一下Git-10M数据集

Git-10M:该数据集包含1000万图像-文本对,是目前最大规模的遥感图像-文本数据集,其规模是之前最大数据集的5倍。数据集中的图像涵盖了城市、森林、山脉等多种地理场景,并包含图像分辨率和地理位置等重要元数据。

数据集构建:

数据集的图像来源于多个公开数据集(如Million-AID、GeoPile等)以及从Google Earth手动收集的全球遥感图像。在收集过程中,研究团队保留了图像的场景类别标签,以便在后续文本标注阶段生成更精确的语义描述。此外,通过图像增强模型对收集的图像进行了质量提升,显著提高了数据集的整体图像质量。

数据集特点:

1、全球覆盖:数据集涵盖了多个大洲和地理区域,包含城市、森林、山脉、沙漠等多种典型场景。

2、多分辨率:数据集中的图像分辨率从0.5米/像素到128米/像素不等,支持不同尺度的图像生成需求。

3、高质量文本标注:通过自动化标注流程结合人工审核,生成了高质量、语义丰富的文本描述,平均每张图像对应约52个单词的文本描述。

数据集使用方法:

Git-10M数据集可用于训练生成式模型,如Text2Earth,以实现文本驱动的遥感图像生成。用户可以通过指定文本描述和分辨率要求,生成符合需求的遥感图像。此外,该数据集还可用于图像编辑、无边界场景构建和跨模态图像生成等多种任务。

基准测试:

在现有的遥感文本到图像基准数据集RSICD上,基于Git-10M训练的Text2Earth模型显著优于以往模型,FID指标提升了26.23,Zero-shot Cls-OA指标提升了20.95%。

图片
Git-10M 数据集的多样化图像合成。大多数图像是从 Google 地球收集的,允许公开共享和重新分发。
图片
Git-10M 数据集的地理空间分布多样化,跨越多个大洲和地理区域,覆盖城市、森林、山脉、沙漠等各种典型场景。
图片
Git-10M 数据集中不同分辨率的图像分布。该数据集包含从高分辨率(例如 0.5m/像素)到低分辨率(例如 128m/像素)的图像。
图片
增强处理前后图像的质量得分。结果表明,增强后有显著改善。
图片
Text2Earth 模型的结构配备了 13 亿个参数。Text2Earth 可以生成与提供的文本一致的全新图像,或者在保留原始结构的同时对现有图像执行本地编辑。用户可以输入白色遮罩来指定用于生成视觉内容的图像区域,该区域可以包含整个图像或专注于特定的局部区域。

Text2Earth 的核心结构包括以下几个部分:
1、变分自编码器(VAE):用于将高分辨率遥感图像压缩到一个紧凑的隐空间,同时保留图像的感知一致性。这大大降低了扩散模型的计算开销,使其适合于大规模图像生成。

2、OpenCLIP ViT-H 文本编码器:将输入文本转换为高维语义嵌入,通过交叉注意力机制与扩散模型的解码器(U-Net)结合,确保生成图像与文本描述的一致性。

3、分辨率嵌入模块:将图像分辨率信息编码为隐空间中的嵌入向量,使模型能够根据用户指定的分辨率生成图像。

4、U-Net 解码器:通过逐步去噪生成图像。它结合了文本嵌入和分辨率嵌入,确保生成图像的语义和分辨率符合用户需求。

为了提高模型的鲁棒性和适应性,Text2Earth 提出了动态条件适应策略(DCA),包括以下两个阶段:
1、训练阶段:在训练时,随机丢弃文本或分辨率条件(以一定概率),使模型学会在不完整输入的情况下生成图像。这种策略增强了模型对缺失输入的适应能力。

2、采样阶段:在生成图像时,DCA 策略通过结合条件输入和空条件(null condition)来指导去噪过程。具体来说,模型会计算两种噪声预测的加权组合,从而在保持图像质量的同时,更好地适应用户输入条件。

Text2Earth 不仅能够实现零样本(zero-shot)文本到图像生成,还能在多种任务中表现出色:
1、零样本文本到图像生成:用户只需输入文本描述,模型即可生成符合描述的遥感图像,无需针对特定场景进行微调。

2、无边界场景构建:通过迭代扩展图像边界,Text2Earth 能够生成无限大的遥感场景,突破了传统生成模型的固定尺寸限制。

3、图像编辑:支持对遥感图像进行局部编辑,如去除云层、替换地理特征等,同时保持图像的整体连贯性。

4、跨模态图像生成:通过少量参数调整,Text2Earth 可以实现从文本到不同模态(如 SAR、NIR)图像的生成,以及图像到图像的翻译任务(如 PAN 到 RGB)。

图片
我们的 Text2Earth 展示了基于用户自由文本输入跨不同地理特征零样本 text2image 生成的强大功能。它可以生成多种场景,包括山脉、河流、城市地区、森林和农田等各种地理特征。
图片
Text2Earth 可以根据用户规格生成不同分辨率的遥感图像,从详细的特写到大范围覆盖。
图片
遥感影像编辑中的一些示例。Text2Earth 在遥感图像编辑方面表现出卓越的多功能性,可以修改图像内容,例如移除云以及替换或添加地理特征。
图片
通过迭代 outpainting 实现无界遥感场景。用户可以在画布上无缝无限扩展遥感图像,有效克服传统生成模型的固定大小限制。
图片
文本驱动的多模态图像生成。Text2Earth 可以生成高质量的图像。例如,在生成的 NIR 图像中,植被区域表现出较高的像素值,这与 NIR 的物理成像原理一致,其中绿色植被在近红外光谱中强烈反射。

三、让我们一起展望Git-10M应用场景

比如,我是地理信息系统(GIS)工作人员,

主要负责利用遥感技术和地理数据来生成、分析和展示大规模地理场景。

以前,我如果要创建一个大规模的遥感图像场景,比如模拟一条河流从源头到入海口的完整路径,或者展示一个生态系统从农田到森林再到沙漠的过渡,那简直就是一场“拼图游戏”。需要从不同的数据源收集各种图像片段,然后手动拼凑它们,确保它们在分辨率、色调和地理特征上尽量匹配。这个过程不仅耗时耗力,而且结果往往不尽如人意——拼接处的过渡总是显得生硬,甚至有时候还会出现明显的错误,比如植被类型突然变化,或者河流的走向看起来不自然。 而且,每次生成这样的场景都需要重新收集和处理数据,对于不同的地理区域或不同的场景需求,几乎都要从头开始。这不仅限制了我快速生成多样化场景的能力,也大大增加了工作量。

现在有了Git-10M带来的变化,我再也不掉头发了:一键生成无边界场景

现在有了Git-10M数据集和Text2Earth模型,一切都变得不一样了!我可以轻松地从一个基础图像开始,比如一段河流的图像,然后通过简单的文本指令,让模型根据我的需求无限扩展这个场景。

比如,我只需要输入“将河流向下游延伸,穿过一片森林,最终流入海洋”,模型就能自动理解我的需求,并生成一个无缝连接的图像,从河流的源头开始,穿过郁郁葱葱的森林,最后流入蓝色的海洋。整个过程只需要几分钟,而且生成的图像过渡自然,细节丰富,完全符合我的需求。 更神奇的是,我可以随时调整场景的内容,比如在森林中添加一些湖泊,或者在沙漠中增加一些绿洲,只需要简单修改一下文本指令,模型就能快速响应并生成新的图像。这种灵活性和高效性是我以前做梦都想不到的。

这种无边界场景构建的能力,让我能够更直观地展示地理信息,同时也为我的工作带来了更多的创意和灵感。 同时也能让我用一种全新的视角去探索和展示地球表面的各种场景。

人生充满了惊喜,值得我们去探索发现,出发!2025年,加油!

更多免费的数据集,请打开:遇见数据集
https://www.selectdataset.com/


数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。