跳转至

SMARTIES: Spectrum-Aware Multi-Sensor Auto-Encoder for Remote Sensing Images

会议: ICCV 2025
arXiv: 2506.19585
代码: https://gsumbul.github.io/SMARTIES
领域: remote_sensing
关键词: 遥感基础模型, 多传感器, 光谱感知, 掩码自编码器, 传感器无关表示

一句话总结

提出 SMARTIES,一个统一的传感器无关遥感基础模型,通过光谱感知投影将异构传感器数据映射到共享空间,结合跨传感器 token 混合和掩码重建进行自监督预训练,在单模态和多模态任务上超越专用传感器模型,并可泛化到预训练未见过的传感器。

研究背景与动机

遥感数据来自多种传感器(光学、SAR、热红外等),光谱范围、辐射分辨率、空间分辨率差异巨大。现有深度学习模型面临:

传感器特定模型:为每个传感器单独训练,无法跨传感器迁移

多传感器基础模型的局限: - 双/三模态模型(如 CROMA、SkySense)使用传感器特定编码器,增加传感器需要修改架构,计算开销大 - 动态权重方法(如 DOFA)需要超网络和海量预训练数据(800万图像),扩展性有限

泛化瓶颈:在固定传感器组合上训练会产生偏置,无法迁移到未见传感器

核心思路:所有遥感传感器实质上都在采集电磁频谱的不同子集,可以基于波长范围定义统一的投影层,将不同传感器映射到共享的光谱感知空间。

方法详解

整体框架

SMARTIES 由四部分组成: 1. 光谱感知图像投影:将不同传感器数据投影到共享空间 2. 跨传感器 Token 混合:交换来自不同传感器的 token 打破传感器偏置 3. 光谱感知图像重建:用标准 ViT 编码器-解码器做掩码图像建模 4. 下游迁移到多样传感器:包括未见传感器的插值适配

关键设计

  1. 光谱感知投影层:根据波长范围定义 17 个投影层 \(\mathcal{F} = \{f_1, ..., f_{17}\}\),其中 \(f_1\)-\(f_{12}\) 对应 Sentinel-2 的 12 个波段,\(f_{13}\)-\(f_{15}\) 对应 Maxar RGB,\(f_{16}\)-\(f_{17}\) 对应 Sentinel-1 SAR。每个投影层 \(f_i: \mathbb{R}^{S \times S} \to \mathbb{R}^D\) 为全连接层。对给定传感器图像的每个 patch,用其波段对应的投影层分别嵌入后取平均,再乘 \(C_{\text{max}}=12\) 缩放以避免不同波段数的传感器间失衡。添加新传感器仅需添加新的投影层。

  2. 跨传感器 Token 混合:输入一对来自不同传感器但同一地区的配对图像 \((\mathbf{I}_a, \mathbf{I}_b)\),通过二值掩码 \(\mathcal{M}\) 交换 token: $\(\mathbf{T}_{a'} = \mathcal{M} \odot \mathbf{T}_a + (1-\mathcal{M}) \odot \mathbf{T}_b\)$ 同时做镜像混合保留所有信息。这防止模型对特定光谱组合产生偏置。

  3. 未见传感器的插值迁移:对新传感器的未见波段,如果其中心波长 \(\lambda_n^c\) 落在已学习层 \(f_i\)\(f_j\) 的中心波长之间,通过距离加权平均组合两个投影层的输出。限制条件:仅适用于预训练频谱范围内的插值,不支持外推。

损失函数 / 训练策略

  • 自监督 MAE 损失:对混合后的两组 patch 分别计算掩码区域的 MSE 重建损失 $\(\mathcal{L} = \mathcal{L}_{a'} + \mathcal{L}_{b'}, \quad \mathcal{L}_{a'} = \frac{\sum(\mathbf{P}_{a'}^{\text{mask}} - \hat{\mathbf{P}}_{a'}^{\text{mask}})^2}{R \cdot N_W N_H}\)$
  • 预训练仅 496K 图像(60K fMoW RGB-S2 对 + 188K BigEarthNet S1-S2 对),300 epochs
  • ViT-B/L 骨干,AdamW 优化器,batch size 2048,8 张 A100 GPU
  • 掩码率 75%,混合率 50%,输入 224×224

实验关键数据

主实验 (表格)

BigEarthNet 多标签场景分类(10% 训练数据,mAP):

方法 骨干 S1 (LP) S2 (FT) MM (LP)
SatMAE (S2) ViT-B 68.4 85.9 77.8
SpectralGPT ViT-B 57.1 85.6 68.5
CROMA ViT-B×2 79.8 87.6 85.2
SMARTIES ViT-B 78.9 86.9 85.4
SMARTIES ViT-L 80.5 87.7 86.7

EuroSAT 场景分类 Top-1 准确率:

方法 LP FT
SatMAE (S2) ViT-B 96.6 99.2
CROMA ViT-B×2 97.6 99.2
SMARTIES ViT-B 98.4 99.4
SMARTIES ViT-L 98.9 99.6

语义分割 PANGAEA 基准(冻结骨干 UPerNet, mIoU):

方法 BurnScars DEN SpaceNet7
CROMA 81.8 38.3 59.9
DOFA 80.6 39.3 61.8
SMARTIES 82.8 38.5 62.2

消融实验 (表格)

跨传感器 Token 混合消融(EuroSAT kNN, 50 epochs 预训练):

设置 kNN 准确率
无混合 91.0
混合(仅 BEN) 91.1
混合(完整) 93.2

多模态融合策略(BEN-MM LP, mAP):

策略 1% 数据 10% 数据
Image Stacking 75.9 83.1
Feature Concatenation 77.0 84.7
Mixup Concatenation 79.2 86.7

关键发现

  • 单一模型超越传感器特定模型:SMARTIES 用一个 ViT-B 在 SAR(S1)和光学(S2)任务上同时超越各自的专用模型
  • 数据高效:仅 496K 预训练图像,远少于 DOFA 的 800 万和 CROMA 的大规模数据
  • 未见传感器泛化:对 Landsat-8 热红外波段(预训练未见),通过投影插值后冻结骨干即达到 50.2 mIoU,超越从头训练的 U-Net (47.7) 和 DeepLabV3+ (48.5)
  • 多尺度鲁棒:在多尺度评估中超越专门设计的 Scale-MAE 和 Cross-Scale MAE
  • 跨传感器 token 混合带来的多模态融合增益为 +2.2% mAP

亮点与洞察

  • 基于物理的设计哲学:利用电磁频谱的连续性和传感器波段的物理对应关系来统一表示,比纯数据驱动更有原则
  • 极简但有效:相比需要超网络(DOFA)或传感器特定编码器(CROMA)的复杂架构,SMARTIES 仅增加轻量投影层(+5.9M 参数),可保持与 vanilla MAE 相近的计算复杂度
  • 添加新传感器零成本:只需定义对应波长范围的新投影层,无需修改骨干架构
  • 跨传感器 token 混合思路简洁有效,启发了其他多模态学习场景

局限与展望

  • 投影插值仅限于预训练频谱范围内(不支持外推),如 X 波段雷达等频段可能需要额外学习
  • 未涉及时序建模,对遥感变化检测等需要多时相分析的任务尚需扩展
  • 仅关注振幅相关物理量,排除了 SAR 相位信息(如 InSAR)
  • 各波段使用独立全连接投影层,未利用相邻波段的光谱连续性
  • 预训练场景以欧洲为主(BigEarthNet),对其他地理区域的泛化需进一步验证

相关工作与启发

  • MAE 系列(SatMAE、SpectralGPT、S2MAE)是遥感 SSL 的主流框架
  • CROMA 和 SkySense 是多模态遥感 FM 的代表但依赖传感器特定编码器
  • DOFA 用超网络动态生成权重,但需海量数据和复杂架构
  • SMARTIES 的光谱感知投影思路对其他多模态学习(如医学成像中的多序列 MRI)有启发

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 光谱感知空间和跨传感器 token 混合是遥感 FM 的重要范式突破
  • 实验充分度: ⭐⭐⭐⭐⭐ 10 个数据集,涵盖分类/分割/多尺度/未见传感器等全面评估
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,设计动机与物理原理结合紧密
  • 价值: ⭐⭐⭐⭐⭐ 为遥感多传感器统一建模提供了高效且可扩展的解决方案

相关论文