跳转至

Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

会议: CVPR 2026 arXiv: 2602.19863 代码: 项目页 (有) 领域: Segmentation / 遥感基础模型 关键词: 遥感基础模型, 多光谱, 知识蒸馏, 对比学习, 双教师训练

一句话总结

提出DEO(Distillation for Earth Observation),一种双教师对比蒸馏框架——用多光谱自蒸馏教师学习光谱表示、用光学VFM教师(DINOv3)注入高级语义先验,使单一学生网络同时擅长光学和多光谱遥感任务,在语义分割、变化检测和分类上全面达到SOTA。

研究背景与动机

  1. 领域现状:基础模型正在改变遥感(EO)领域,大量无标注数据+灵活的任务适配使其在标注稀缺的EO中特别有价值。但EO传感器和模态多样,训练单一通用模型不现实,多个专用基础模型将共存。

  2. 现有痛点

  3. 大多数EO预训练使用掩码图像建模(MIM),强调局部重建但对全局语义结构控制有限
  4. 通用VFM(如DINOv2/DINOv3)拥有强大的光学语义先验,但缺乏多光谱(MS)能力
  5. 从头训练MS基础模型计算昂贵

  6. 核心矛盾:如何高效地将VFM的强大光学语义先验迁移到多光谱学生,同时不损害MS特有信息的学习?现有方法(如Copernicus-FM)将MIM与VFM蒸馏结合,但MIM目标与VFM的对比自蒸馏目标不兼容,导致全局语义结构较弱。

  7. 本文目标:提出一种预训练策略,使模型在多光谱数据可用时表现出色,同时在仅光学任务上不牺牲性能。

  8. 切入角度匹配学生与VFM教师的预训练目标——如果VFM是用对比自蒸馏训练的,那学生也应该用对比自蒸馏,这样潜在特征空间更容易对齐。

  9. 核心idea:双教师 = 多光谱对比自蒸馏教师(结构化MS特征空间)+ 光学VFM冻结教师(提供全局语义先验),统一在对比蒸馏框架下。

方法详解

整体框架

如图2所示: - 输入增强:从Sentinel-2多光谱图像生成多尺度全局/局部视图 - 多光谱分支(红色):MS教师(EMA更新)+ 学生,对比自蒸馏 - 光学分支(蓝色):冻结DINOv3教师 + 学生,特征蒸馏 - 学生网络(绿色):Swin Transformer骨干,10通道+3通道双patch embedding

关键设计

1. 多光谱对比自蒸馏

  • 做什么:学习鲁棒的多光谱表示
  • 核心思路:基于DINO框架,MS教师权重通过EMA更新。损失函数结合余弦相似度(压缩)和编码率正则化(膨胀): $\(\mathcal{L}_{MS} = \mathcal{L}_\text{cos}(p_M(\mathbf{z}_g^M), p_s^{MS}(\mathbf{z}_{g \cup l}^M)) - \gamma \mathcal{L}_{CR}(\cdot)\)$ 其中 \(\mathcal{L}_{CR} = -\log\det(\mathbf{I} + \text{Cov}[\mathbf{z}])\) 防止表示坍塌
  • 设计动机:对比学习产生对分布偏移不变的强语义表示,编码率正则化替代传统的温度缩放/负样本策略防止坍塌

2. 光学VFM蒸馏

  • 做什么:将DINOv3的全局语义和像素级特征迁移到学生
  • 核心思路:蒸馏三类特征,各用独立投影头: $\(\mathcal{L}_O = \alpha_1 \mathcal{L}_\text{cos}(\text{[cls]}_F) + \alpha_2 \mathcal{L}_\text{cos}(\text{[p]}_F) + \alpha_3 \mathcal{L}_\text{cos}(\text{[p]}_\text{mid})\)$
  • \(\text{[cls]}_F\):最终层class token(全局语义)
  • \(\text{[p]}_F\):最终层patch token(像素级特征)
  • \(\text{[p]}_\text{mid}\):中间层patch token(中层特征)
  • 设计动机:仅蒸馏class token对dense prediction任务不够,需patch-level特征;中间层特征提供互补的中层语义信息

3. 骨干选择与数据策略

  • 骨干:Swin Transformer(patch size 4 vs ViT的16),产生更精细的特征分辨率
  • 数据:fMoW-Sentinel(MS)+ fMoW-RGB(光学),用15万张高分辨率航空图替换低分辨率光学波段
  • 双patch embedding:MS用10通道,光学用3通道,共享后续Transformer层

损失函数

\[\mathcal{L} = -\mathcal{L}_{MS} - \mathcal{L}_O\]

多光谱和光学目标联合优化,权重系数 \(\alpha_1=1, \alpha_2=0.5, \alpha_3=0.5, \gamma=1\)

实验关键数据

主实验:语义分割(mIoU)

光学分割:

方法 SpaceNet GB-cattle GB-pv GB-chesa. 平均
DINOv3-B (RGB) 79.06 73.01 94.34 64.04 77.61
Copernicus-FM (MS) 75.45 68.88 93.56 55.81 73.43
DEO 82.22 76.22 95.36 75.08 82.22

多光谱分割:

方法 GB-SA-crop GB-cashew S1F11 PASTIS 平均
TerraFM (MS) 30.95 59.49 92.72 19.65 50.70
Copernicus-FM (MS) - 55.71 92.58 21.49 51.11
DEO 36.59 65.60 93.30 23.06 63.51
  • MS分割平均+4.20 pp超越SOTA(63.51 vs 51.11)

变化检测(F1)

方法 LEVIR (光学) OSCD (MS) 平均
DINOv3-LS 91.8 57.2 74.5
TerraFM 89.5 57.5 73.5
DEO 91.3 59.2 75.3

分类(线性探测)

方法 m-bigearthnet F1 m-so2sat Top1 m-eurosat Top1 平均
DINOv3-B 55.48 - 93.3 -
TerraFM - 47.57 93.1 67.61
DEO 58.43 53.09 93.8 68.44

消融实验

组件 光学平均 MS平均 总平均
基础(仅MS自蒸馏) 77.87 60.44 69.16
+DINOv3 [cls] 79.07 (+1.20) 62.81 (+2.37) 70.94
+独立光学路径 81.20 (+2.13) 62.69 (-0.12) 71.95
+DINOv3 [p] 81.74 (+0.53) 62.46 72.10
+光学增强 81.95 63.02 (+0.55) 72.48
+高分辨率光学 82.22 (+0.27) 63.51 (+0.50) 72.87

关键发现

  1. 光学VFM蒸馏不仅提升光学性能,也显著提升MS性能:加入DINOv3 [cls]蒸馏后MS平均+2.37pp
  2. 目标兼容性关键:对比自蒸馏目标与DINOv3的训练目标匹配,使特征空间自然对齐(图3中PCA可视化证实)
  3. 所有组件累加有效:从基础69.16到完整72.87,每个组件都有正贡献
  4. DEO综合排名第一:在11个评测中平均排名最高(表4),且模型仅87M参数、预训练数据仅50万张

亮点与洞察

  1. 目标兼容性洞察深刻:学生的预训练目标应与教师模型的训练目标匹配——这解释了为什么MIM+VFM蒸馏(如Copernicus-FM)效果不如对比蒸馏+VFM蒸馏
  2. 效率优秀:仅50万张图训练(TerraFM用1800万张),87M参数(DINOv3-LS 303M),16×A100训练100epoch,就达到全面SOTA
  3. "不损害"的多模态:增加MS能力不牺牲光学性能——这在多模态基础模型中难能可贵
  4. Swin替代ViT:patch size 4产生的精细特征对dense prediction很关键,即使教师是ViT也可以跨架构蒸馏

局限性/可改进方向

  1. 仅覆盖Sentinel-2的10个波段:未处理SAR、热红外等更多模态
  2. 空间分辨率受限:Sentinel-2原生10-60m分辨率,虽部分替换了高分光学数据但MS波段仍为低分辨率
  3. fMoW数据集的地理偏差:主要覆盖特定区域,对极地、海洋等区域泛化未知
  4. 未探索更大规模的学生模型是否能进一步受益

相关工作与启发

  • DINOv3:最新的视觉基础模型,特别关注遥感领域——DEO证明了高效利用其知识而非从头竞争的正确性
  • 编码率正则化:来自MCR²(Ma et al.),替代传统对比学习中的负样本/温度缩放,更优雅地防止表示坍塌
  • 对遥感社区的启发:与其投入巨大算力从头训练MS基础模型,不如通过蒸馏高效地吸收现有VFM的知识——这为可持续的EO基础模型生态指明方向

评分

⭐⭐⭐⭐⭐ — 洞察深刻(目标兼容性)、效率出色(50万张就达到SOTA)、实验全面(11个数据集3个任务),是遥感基础模型领域的优秀工作