OmniSat: Self-Supervised Modality Fusion for Earth Observation¶

vs U-TAE: 单模态S2基线，OmniSat扩展为多模态
vs SatCLIP: 做地理编码对齐但不处理时序
vs SkySense: 大规模预训练但不处理模态缺失

会议: ECCV 2024
arXiv: 2404.08351
代码: GitHub
领域: 遥感/时间序列
关键词: multi-modal fusion, earth observation, self-supervised, Sentinel, PASTIS

一句话总结¶

提出OmniSat统一框架，通过模态特异编码器+跨模态对比自监督预训练，将多光谱时序（S2）、SAR时序（S1）、高分辨率单时相（SPOT/Aerial）等异构遥感数据融合为统一表示，在语义分割和作物分类上超越所有单模态和多模态基线。

领域现状：地球观测有丰富多源数据——S2(多光谱时序)、S1(SAR时序)、高分辨率单时相(SPOT/航空)，分辨率从10m到0.2m。现有方法大多只利用单一模态。
现有痛点：不同模态的时空分辨率、波段数、采集频率完全不同，直接拼接或简单融合无法有效利用互补信息。
核心矛盾：高分辨率数据空间细节好但缺时间信息；时序数据时间丰富但空间分辨率低。
本文要解决什么：设计一个可以灵活接收任意模态子集的统一多模态遥感架构。
切入角度：每种模态用专门编码器，通过跨模态对比学习对齐到共享语义空间。
核心idea一句话：模态特异编码器+跨模态CLIP式对齐+灵活dropout实现任意模态组合的鲁棒融合。

每种模态有专门编码器：时序数据用时空注意力Transformer（U-TAE变体），高分辨率用CNN/ViT。各编码器输出经projection head映射到共享空间。推理时用cross-attention融合多模态token。