跳转至

OmniSat: Self-Supervised Modality Fusion for Earth Observation

会议: ECCV 2024
arXiv: 2404.08351
代码: GitHub
领域: 遥感/时间序列
关键词: multi-modal fusion, earth observation, self-supervised, Sentinel, PASTIS

一句话总结

提出OmniSat统一框架,通过模态特异编码器+跨模态对比自监督预训练,将多光谱时序(S2)、SAR时序(S1)、高分辨率单时相(SPOT/Aerial)等异构遥感数据融合为统一表示,在语义分割和作物分类上超越所有单模态和多模态基线。

研究背景与动机

  1. 领域现状:地球观测有丰富多源数据——S2(多光谱时序)、S1(SAR时序)、高分辨率单时相(SPOT/航空),分辨率从10m到0.2m。现有方法大多只利用单一模态。
  2. 现有痛点:不同模态的时空分辨率、波段数、采集频率完全不同,直接拼接或简单融合无法有效利用互补信息。
  3. 核心矛盾:高分辨率数据空间细节好但缺时间信息;时序数据时间丰富但空间分辨率低。
  4. 本文要解决什么:设计一个可以灵活接收任意模态子集的统一多模态遥感架构。
  5. 切入角度:每种模态用专门编码器,通过跨模态对比学习对齐到共享语义空间。
  6. 核心idea一句话:模态特异编码器+跨模态CLIP式对齐+灵活dropout实现任意模态组合的鲁棒融合。

方法详解

整体框架

每种模态有专门编码器:时序数据用时空注意力Transformer(U-TAE变体),高分辨率用CNN/ViT。各编码器输出经projection head映射到共享空间。推理时用cross-attention融合多模态token。

关键设计

  1. 模态特异编码器
  2. 做什么:分别处理异构数据(时序多光谱、SAR、单时相高分)
  3. 核心思路:S2用U-TAE(时空注意力),S1类似但适配2通道SAR,高分用ViT/ResNet
  4. 设计动机:输入格式差异太大,不适合共享编码器

  5. 跨模态对比对齐

  6. 做什么:自监督预训练将同一地块的不同模态映射到相近嵌入
  7. 核心思路:CLIP式对比学习——同一地块的S1和S2嵌入拉近,不同地块拉远
  8. 设计动机:标注稀缺,利用空间共现关系免费获取对齐信号

  9. 模态Dropout + 灵活推理

  10. 做什么:训练时随机丢弃部分模态,推理时接受任意子集
  11. 核心思路:每step随机mask部分模态输入,强制模型从任意子集提取信息
  12. 设计动机:实际部署中不是所有地块都有全部模态覆盖

损失函数 / 训练策略

  • 预训练:跨模态InfoNCE;微调:交叉熵+Dice
  • 数据集:PASTIS(法国S1+S2+SPOT)、FLAIR(航空+S2)

实验关键数据

主实验(PASTIS语义分割mIoU%)

模态组合 方法 mIoU
S2 only U-TAE 63.1
S1+S2 双流 65.2
S1+S2+SPOT OmniSat 67.5

消融实验

配置 mIoU 说明
完整 67.5 三模态
w/o 预训练 64.1 自监督+3.4
w/o dropout 65.8 鲁棒性+1.7
w/o S1 66.2 SAR全天候
w/o SPOT 65.9 高分细节

关键发现

  • 三模态融合比最好单模态提升4.4 mIoU
  • 自监督预训练贡献3.4 mIoU,是最大性能来源
  • 模态dropout使缺失任一模态退化控制在1-2 mIoU

亮点与洞察

  • 首个统一处理光学时序+SAR时序+高分单时相的框架
  • 地理共现自监督:利用多源数据天然空间对应关系做对齐
  • 灵活推理:一个模型接受任意模态子集,实用性极强

局限性 / 可改进方向

  • 仅在法国农业区验证,全球泛化性未知
  • 对比学习对地理相近但语义不同区域可能产生混淆
  • 高分辨率模态空间覆盖有限

相关工作与启发

  • vs U-TAE: 单模态S2基线,OmniSat扩展为多模态
  • vs SatCLIP: 做地理编码对齐但不处理时序
  • vs SkySense: 大规模预训练但不处理模态缺失

评分

  • 新颖性: ⭐⭐⭐⭐ 首个处理三类异构遥感数据的统一框架
  • 实验充分度: ⭐⭐⭐⭐ 多数据集+模态消融+预训练消融
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰
  • 价值: ⭐⭐⭐⭐⭐ 模态dropout对实际部署极有价值