跳转至

EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues

会议: CVPR 2025
arXiv: 2412.15190
代码: https://github.com/hiyamdebary/EarthDial
领域: 遥感 / 多模态VLM
关键词: 遥感VLM, 地球观测, 多光谱, 多时序, 指令微调

一句话总结

提出 EarthDial,一个专为地球观测 (EO) 数据设计的对话式视觉语言模型,支持多光谱 (SAR/NIR/红外)、多时序和多分辨率遥感影像的统一理解,基于 1111 万条指令微调数据集,在 44 个下游数据集上超越现有遥感 VLM。

研究背景与动机

领域现状:通用 VLM(如 GPT-4V)在遥感数据上表现差,因为 RS 数据有独特的地理空间、光谱和时序维度。近期出现的遥感 VLM(如 GeoChat、SkyEyeGPT)仅支持 RGB 光学影像,不支持 SAR、多光谱、多时序数据。

现有痛点:(1) 现有数据集规模小且仅覆盖 RGB 模态(最大约 1M 对);(2) 不支持多光谱输入(Sentinel-2 的 13 波段、SAR 的 VH/VV 等);(3) 不支持时序变化分析(变化检测、时序分类);(4) 不支持变分辨率(从 0.5m 航空影像到 30m Landsat)。

核心矛盾:EO 数据的多模态复杂性(不同传感器、不同分辨率、不同时间)与现有 VLM 仅处理固定分辨率 RGB 图像之间的鸿沟。

本文目标 构建首个统一处理多分辨率、多光谱、多时序遥感数据的对话式 VLM。

切入角度:(1) 构建 11M+ 指令数据集覆盖所有模态;(2) 设计数据融合模块处理非 RGB 输入;(3) 三阶段训练逐步扩展模型能力。

核心 idea:用 11M 多模态指令数据集 + 自适应高分辨率/数据融合模块 + 三阶段训练,构建遥感领域首个全模态 VLM。

方法详解

整体框架

基于 InternVL 架构(InternViT-300M 视觉编码器 + Phi-3-mini LLM,共 4B 参数)。两个关键模块:自适应高分辨率模块(将不同分辨率图像动态拆分为 448×448 tiles + 缩略图)和数据融合模块(每次处理 3 通道送入 ViT,特征聚合后降维)。使用特殊 token 区分不同模态和任务。

关键设计

  1. 数据融合模块 (Data Fusion):

    • 功能:处理任意通道数的多光谱/SAR/时序输入
    • 核心思路:对多光谱输入(如 Sentinel-2 的 13 波段),每次取 3 个通道送入 ViT 提取特征,然后聚合所有通道特征。通过 AnyRes 模块将特征分 patch 编码,用双线性插值降维减少 token 数,最后与文本嵌入拼接送入 LLM。对 RGB 时序图像,每帧独立过 ViT 后 stack 拼接
    • 设计动机:复用预训练的 RGB ViT 处理多通道输入,避免从头训练多光谱编码器
  2. 三阶段训练策略:

    • 功能:逐步扩展模型能力
    • 核心思路:Stage 1(预训练):用 7.6M 图文对(NAIP/Sentinel-2/Landsat/SkyScript)训练全部参数(ViT+MLP+LLM),学习 RS 视觉-语言对齐。Stage 2(RGB+时序微调):冻结 ViT,微调 MLP+LLM,加入分类/检测/VQA/变化检测等任务,引入时序数据融合。Stage 3(多光谱+SAR 微调):继续冻结 ViT,微调 MLP+LLM,加入数据融合模块处理多光谱/SAR/RGBI/高光谱数据
    • 设计动机:先在大量 RGB 数据上建立强基础,再逐步扩展到更复杂的模态,避免多模态同时训练的冲突
  3. EarthDial-Instruct 数据集(11.11M):

    • 功能:提供全模态覆盖的指令微调数据
    • 核心思路:Stage 1 数据(7.6M):从 SatlasPretrain 和 SkyScript 提取标签,用 InternLM-XComposer2 生成 QA 对,经过稀疏标签/云层/覆盖度三重过滤。Stage 2 数据(1.8M):整合现有 RS 数据集(分类/检测/VQA/变化检测等)。Stage 3 数据(2.5M):Sentinel-1 SAR、LCZ 分类、树种分类、甲烷羽流检测、城市热岛等
    • 设计动机:是现有最大 RS 指令数据集的 6x,模态覆盖远超以往

损失函数 / 训练策略

标准自回归交叉熵损失。Stage 1: 8×A100,lr=4e-5,cosine schedule。Stage 2: 4×A100,4 小时。Stage 3: 扩展到多光谱/SAR。

实验关键数据

主实验

场景分类(多数据集平均):

方法 AID RESISC45 PatternNet UCM SIRI-WHU
GeoChat 88.2 82.6 94.3 87.6 87.2
LHRS-Bot 87.5 83.1 96.8 84.2 -
EarthDial 92.3 90.8 97.8 91.2 93.5

视觉问答 (VQA):

方法 RSVQA-LR RSVQA-HR
GeoChat 81.9 79.1
EarthDial 87.4 83.2

在 44 个下游数据集(含分类/检测/VQA/变化检测/grounding 等任务,跨 RGB/SAR/多光谱模态)上整体性能最优。

消融实验

配置 说明
无 Stage 1 预训练 性能显著下降,RS 域对齐是基础
Stage 2 训练数据量 vs 性能 数据量增加带来持续提升
数据融合 vs 独立通道 融合模块对多光谱任务提升显著

关键发现

  • 三阶段训练比端到端训练效果更好,逐步扩展避免了模态冲突
  • EarthDial 仅 4B 参数就超越了更大的模型(如 EarthGPT),数据质量+训练策略 > 模型大小
  • 在 SAR 船舶检测、甲烷羽流检测等新任务上展示了零样本/少样本能力
  • 多光谱数据的数据融合模块比简单的 RGB 转换好得多

亮点与洞察

  • 首个全模态遥感 VLM:支持 RGB/SAR/多光谱/红外 + 单时相/双时相/多时相 + 多分辨率,覆盖面远超以往
  • 11M 指令数据集的工程价值:数据集本身就是重要贡献,三重过滤确保质量,LLM 辅助生成确保规模
  • 轻量化设计:4B 参数(InternViT-300M + Phi-3-mini)就达到 SOTA,说明小模型+好数据+好训练策略的重要性

局限与展望

  • 数据融合模块比较简单(逐 3 通道处理后拼接),可以设计更精细的跨波段注意力
  • Stage 3 的多光谱/SAR 训练数据量(2.5M)远小于 Stage 1 的 RGB 数据(7.6M),多光谱能力可能欠训练
  • 44 个数据集中大部分是 RGB 任务,多光谱/SAR 任务比例偏低
  • 未支持像素级分割输出,仅支持框级检测和文本描述

相关工作与启发

  • vs GeoChat: GeoChat 仅支持高分辨率 RGB,EarthDial 支持全模态。场景分类平均高 5-8%
  • vs EarthGPT/MMRS: EarthGPT 支持光学/SAR/红外但不支持多光谱和多时序,EarthDial 覆盖更全
  • vs SkyEyeGPT: 数据量 968K vs 11.11M,任务覆盖度也更广
  • 对遥感智能分析、灾害响应、环境监测等有广泛应用前景

评分

  • 新颖性: ⭐⭐⭐⭐ 首个全模态遥感 VLM,系统性工程创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 44 个数据集全面验证
  • 写作质量: ⭐⭐⭐⭐ 清晰且全面
  • 价值: ⭐⭐⭐⭐⭐ 对遥感社区有重大实用价值

相关论文