头图

地球观测领域正经历着一场变革性的发展浪潮,其重要性与日俱增。从产业规模看,2024 年 5 月世界经济论坛报告显示,其潜在经济价值将从 2023 年的 2,660 亿美元攀升至 2030 年的超 7,000 亿美元。多国及国际组织早已重视地球观测的战略意义并积极布局。

然而,地球观测技术在处理复杂数据时存在困境,传统卫星图像分析系统处理多源遥感数据速度慢,在地理空间、光谱维度分析有短板。视觉语言模型 (Vision-Language Models, VLMs) 在通用视觉解释领域进展显著,但面对地球观测数据时,通用模型难以应对,因其独特的地理空间、光谱和时间维度对模型要求更高,即使先进专有模型在特定遥感数据处理上准确性也欠佳。

此前针对地球观测的特定领域 VLMs 如 RS-GPT 、 GeoChat 等问世,但在高分辨率图像处理、多光谱和多时相分析等方面存在局限。在此背景下,IBM 研究院、阿联酋人工智能大学、澳大利亚国立大学、瑞典林雪平大学等,联合推出 EarthDial,作为能统一处理多分辨率、多光谱和多时相遥感影像的对话式 VLM,创新性地将复杂多感官地球观测转化为交互式自然语言对话,支持多种遥感任务。科研团队构建了含超 1,111 万条指令对的庞大数据集,涵盖多种多光谱模态,为模型的强大能力奠定了坚实基础。

相关研究成果以「EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues」为题,已入选 CVPR 2025 。

研究亮点:

* EarthDial 是一款对话式 VLM,能够处理多光谱、多时相和多分辨率遥感影像,满足多样化的地球观测任务需求。

* 该研究引入了最大的遥感指令微调数据集,包含超 1,111 万对指令,涵盖多种模态,显著增强模型理解与泛化能力。

* 实验表明,在 44 个下游地球观测任务中,EarthDial 表现优异,相较于现有特定领域 VLMs,展现出更高的准确性与更好的泛化能力。

论文地址:

https://go.hyper.ai/ZtmPG

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,还提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:超 1 千万条指令,覆盖多元分辨率与地理位置信息

在地球观测技术领域,数据维度的复杂性与任务场景的多样性对模型泛化能力形成严峻挑战。为突破传统模型在多模态、多分辨率、多时相遥感数据处理中的性能瓶颈,EarthDial 构建了遥感领域专用大规模数据集 EarthDial-Instruct,包含超 1,100 万条专业指令对。该数据集的预训练策略聚焦于跨模态、跨分辨率、跨时相的泛化能力构建,通过从 SkyScript 、 SatlasPretrain 等专业平台筛选高质量问答指令对,整合了 Sentinel-2 光学影像、 Sentinel-1 合成孔径雷达数据、 NAIP 航空影像、 Landsat 卫星影像等多源异构遥感数据,并同步配置地理标签信息。

在数据质量管控方面,研究团队实施三重过滤机制:首先剔除标签字段少于 3 个的稀疏样本,其次基于光谱亮度值分布和地理覆盖范围排除无效数据,最后借助 InternLM-XComposer2 模型,依据影像地理要素自动生成标准化问答指令对。这一数据净化体系为模型理解遥感数据的光谱特征差异、空间分辨率特性及时相反射变化规律奠定了坚实基础。

面向实际应用需求,EarthDial 构建了精细化的下游任务指令体系,覆盖 10 类核心任务、 6 种视觉模态及 2 种时相类型。

在场景分类任务中,研究团队通过引入 BigEarthNet 数据集处理复杂地表覆盖分类问题,利用 FMoW 多时相数据集实现土地利用变化动态识别,并结合本地气候区划数据与 TreeSatAI 时序数据集,开展城市热岛效应等级划分和森林树种分布识别,有效解决了传统模型在小样本专业领域的泛化能力不足问题。

在目标检测任务中,研究团队设计了包含指代、识别、定位三类标签的指令体系,覆盖光学、 SAR 、红外等多模态影像,通过量化目标关键属性实现精准空间定位与特征描述。

视觉问答与图像描述任务则通过整合多源数据集构建复合指令集,显著提升任务多样性与模型处理性能。变化检测任务采用多数据集融合策略,结合人工序列分析生成标准化描述框架。

针对甲烷羽流检测的特殊需求,研究团队基于 STARCOP 数据集设计对话式提示模板实现精准目标引导;城市热岛效应研究通过影像数据反演关键热力指标,建立区域分类模型并生成专题分析指令;灾害评估模块整合 xBD 地震灾害数据集与 QuakeSet 地震序列数据,构建了灾情等级分析与震后影响评估的专用指令体系。

EarthDial 可解读的数据模式和应用

EarthDial:可统一处理多分辨率、多光谱和多时相遥感数据的专用模型

EarthDial 能够灵活应用于分类、视觉定位、变化检测等任务。其基于先进的自然图像视觉语言模型 (VLMs),通过多阶段微调拓展能力,以改良的 InternVL 为架构,支持多光谱和多时相数据。

如下图所示,模型由视觉编码器 (Visual encoder) 、 MLP 投影器 (MLP layer projector) 和 LLM 三大组件构成,通过 MLP 作为连接块,将视觉编码器与 LLM 连接起来,将视觉标记映射到 LLM 空间。

同时,模型仅 40 亿参数的轻量化设计,在保证高效运行的同时,能够接收多类型遥感数据集,生成精准的遥感对话内容。其中,视觉编码器选用从 60 亿参数 InternViT 蒸馏而来的轻量级 InternViT-300M,确保强大的视觉编码能力;Phi-3-mini 预训练的 LLM,则赋予模型出色的语言理解与生成能力;简单的 MLP 连接块,有效架起视觉与语言空间的桥梁。

此外,自适应高分辨率 (Adaptive High Resolution) 和数据融合 (Data Fusion) 两大核心模块的加入,成为模型处理复杂遥感数据的关键。自适应高分辨率模块借鉴 InternVL 1.5 的动态策略,通过划分图块 (tiles) 与生成缩略图 (thumbnail),既保留高分辨率影像的细节,又提供全局场景理解;数据融合模块针对多光谱 (multi-spectral) 、 SAR 等数据,采用分通道处理、特征聚合降维等策略,将视觉与文本特征深度融合,显著提升模型在复杂任务中的表现。

EarthDial 架构

在训练环节,EarthDial 采用三阶段策略逐步强化性能:

第一阶段是遥感对话预训练 (RS Conversational Pretraining) 。该阶段用 Satlas 、 Skyscript 等数据集的 760 万图像-文本对预训练,建立视觉与文本对齐能力。

第二阶段是遥感 RGB 和时相微调 (RS RGB and Temporal finetuning) 。该阶段针对 RGB 和时相数据微调,优化 MLP 和 LLM 层。

第三阶段是遥感多光谱和 SAR 微调 (RS Multispectral and SAR Finetuning) 。该阶段拓展至多光谱和 SAR 数据,微调 MLP 和 LLM 层。

这三阶段的训练层层递进,赋予 EarthDial 强大的地球观测数据解析与任务执行能力,为环境监测、灾害响应等领域带来革新性突破。

EarthDial 训练策略

实验结果:多个任务优于现有模型,在处理双时相和多时相序列分析方面表现出色

在实验中,EarthDial 模型展现了在多种应用场景下的卓越性能。涵盖 RGB 、多光谱、 SAR 、红外和热成像等影像数据,并评估了场景分类、目标检测、视觉问答 (VQA) 、图像描述、变化检测及甲烷羽流检测等任务。

在场景分类任务中,通过零样本评估,EarthDial 在多个数据集上较现有 VLMs 显著提升性能,尤其在 fMoW 和 xBD 测试集上表现突出。

在目标检测任务中,EarthDial 在指代目标检测、区域描述和定位描述 3 个子任务中均优于 GPT-4o 、 InternVL2-4B 和 GeoChat 等模型,在定位描述任务和 SAR 影像数据集上表现尤为出色。

对于图像描述和 VQA 任务,EarthDial 在相关数据集上的表现超越现有模型。在 VQA 任务中,采用 RSVQA-LRBEN 和 RSVQA-HRBEN 数据集评估,EarthDial 在多数类别中更具优势。

在变化检测任务中,EarthDial 通过数据融合策略有效处理时间数据,展现出强大的时间数据解释和响应能力。

在灾害评估任务中,基于 xBD 数据集的 8 个子任务,EarthDial 在图像分类测试集 1 等子任务中持续超越现有 VLMs 。在 QuakeSet 数据集上,利用 SAR 影像进行地震预测,EarthDial 达到 57.53% 的准确率,超越 GPT-4o 。

在多模态数据处理方面,EarthDial 在多光谱、 RGB-红外和 SAR 影像的分类和指代目标检测任务中较 GPT-4o 显著提升性能,凸显其多波段融合策略的有效性。

在城市热岛 (Urban heat island, UHI) 实验中,EarthDial 达到 56.77% 的准确率,能识别 Landsat8 波段中的温度趋势,优于 GPT-4o 的 22.68% 。

在甲烷羽流分类任务中,采用 STARCOP 数据集,EarthDial 实现了 77.09% 的准确率,较 GPT4o 提升 32.16% 。

地球观测领域的 AI 革命:从数据采集到智能决策的范式跃迁

在全球数字化转型浪潮下,AI 技术正驱动地球观测领域发生深刻变革。随着多模态大模型与在轨智能处理等技术突破,该领域加速从传统数据采集向「感知-认知-决策」闭环智能体系转变,成为支撑全球可持续发展的核心基础设施。

首先,技术突破推动行业从被动记录转向主动干预。欧洲航天局与 IBM 联合研发的 TerraMind 模型整合 8 类异构数据源,成为全球首个地球观测多模态基础模型。其模态推理技术在西伯利亚冻土带甲烷泄漏监测中智能补全数据,预测准确率提升 20%,算力消耗降低 50%;在亚马逊雨林监测场景中,利用生成式能力自动修复影像缺失,实现全天候监测。

中国科学院空天信息创新研究院的「空天・灵眸」3.0 模型以百亿参数规模构建全链路解译体系,精度较传统模型提升 4-10%,并应用于雄安新区生态评估等场景。在轨智能处理方面,卫星载荷智能化升级催生边缘计算能力突破。 ESA 的 Φsat-2 卫星搭载 6 个 AI 应用模块,其中野火监测系统实时捕捉火点,算法快速识别生态威胁。这些技术突破助力地球观测迈向实时决策阶段。

其次,AI 技术在地球观测领域的应用场景广泛,实现从宏观监测到微观治理的全域覆盖。在气候与生态治理方面,由欧洲航天局 (ESA) 与 IBM 欧洲研究院合作开发的一款先进的地球观测 AI 模型 TerraMind,整合哨兵卫星高光谱数据与地面传感器网络,在西伯利亚天然气管道监测中实现米级定位精度,泄漏趋势预测准确率提升 30%;NASA 与谷歌合作的 Global Forest Watch3.0 系统结合 AI 与无人机巡检,成功识别刚果盆地 87% 的非法伐木区域,筑牢热带雨林保护「数字围栏」。

* 论文链接:

https://doi.org/10.1016/j.rse.2021.112470

在灾害响应与城市规划方面,阿里达摩院的遥感 AI 大模型 AIE-SEG 在 2024 年土耳其地震中 3 小时内完成灾区建筑损毁评估,效率较传统人工分析提升 50 倍;清华大学团队开发的时空预测模型模拟城市通风廊道气流运动,为北京城市规划提供量化决策支持。在农业与资源管理方面,微软 Project Premonition 在印度安得拉邦试点,基于 AI 的精准播种建议使每公顷农作物产量提升 30%,为智慧农业提供实时数据支撑。

最后,在生态构建维度,地球观测领域的产学研协同与全球治理稳步推进,开源生态与工具链建设不断完善。例如,谷歌 Earth AI 开放 API 接口,助力全球开发者接入卫星数据智能处理能力,降低技术应用门槛。联合国「AI for Good」倡议利用人工智能抵御自然灾害,致力于建立全球统一的灾害评估标准,促进数据互操作与技术协同。

由此可见,AI 技术正将地球观测从「被动记录」推向「主动干预」。未来,随着多模态大模型、在轨智能处理、量子计算等技术融合,地球观测有望成为支撑碳中和、防灾减灾、资源管理等全球议题的数字基石,在人类与自然的共生关系中书写可持续发展的新篇章。

参考文章:

1.https://www.thepaper.cn/newsDetail\_forward\_30704895

2.https://mp.weixin.qq.com/s/i\_Ar0RJ7g32s1ckCq81P-Q

3.https://mp.weixin.qq.com/s/xpjJH8ECV-2P4e4XKoXU9Q

4.https://mp.weixin.qq.com/s/NLp3


超神经HyperAI
1.4k 声望8.8k 粉丝