Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation¶

会议: CVPR 2026 arXiv: 2602.19863 代码: 项目页 (有) 领域: Segmentation / 遥感基础模型 关键词: 遥感基础模型, 多光谱, 知识蒸馏, 对比学习, 双教师训练

一句话总结¶

提出DEO(Distillation for Earth Observation)，一种双教师对比蒸馏框架——用多光谱自蒸馏教师学习光谱表示、用光学VFM教师（DINOv3）注入高级语义先验，使单一学生网络同时擅长光学和多光谱遥感任务，在语义分割、变化检测和分类上全面达到SOTA。

研究背景与动机¶

领域现状：基础模型正在改变遥感(EO)领域，大量无标注数据+灵活的任务适配使其在标注稀缺的EO中特别有价值。但EO传感器和模态多样，训练单一通用模型不现实，多个专用基础模型将共存。
现有痛点：
大多数EO预训练使用掩码图像建模(MIM)，强调局部重建但对全局语义结构控制有限
通用VFM（如DINOv2/DINOv3）拥有强大的光学语义先验，但缺乏多光谱(MS)能力
从头训练MS基础模型计算昂贵
核心矛盾：如何高效地将VFM的强大光学语义先验迁移到多光谱学生，同时不损害MS特有信息的学习？现有方法（如Copernicus-FM）将MIM与VFM蒸馏结合，但MIM目标与VFM的对比自蒸馏目标不兼容，导致全局语义结构较弱。
本文目标：提出一种预训练策略，使模型在多光谱数据可用时表现出色，同时在仅光学任务上不牺牲性能。
切入角度：匹配学生与VFM教师的预训练目标——如果VFM是用对比自蒸馏训练的，那学生也应该用对比自蒸馏，这样潜在特征空间更容易对齐。
核心idea：双教师 = 多光谱对比自蒸馏教师（结构化MS特征空间）+ 光学VFM冻结教师（提供全局语义先验），统一在对比蒸馏框架下。

方法详解¶

整体框架¶

如图2所示： - 输入增强：从Sentinel-2多光谱图像生成多尺度全局/局部视图 - 多光谱分支（红色）：MS教师（EMA更新）+ 学生，对比自蒸馏 - 光学分支（蓝色）：冻结DINOv3教师 + 学生，特征蒸馏 - 学生网络（绿色）：Swin Transformer骨干，10通道+3通道双patch embedding

关键设计¶

1. 多光谱对比自蒸馏¶

做什么：学习鲁棒的多光谱表示
核心思路：基于DINO框架，MS教师权重通过EMA更新。损失函数结合余弦相似度（压缩）和编码率正则化（膨胀）： $$\mathcal{L}_{MS} = \mathcal{L}_\text{cos}(p_M(\mathbf{z}_g^M), p_s^{MS}(\mathbf{z}_{g \cup l}^M)) - \gamma \mathcal{L}_{CR}(\cdot)$$ 其中 $\mathcal{L}_{CR} = -\log\det(\mathbf{I} + \text{Cov}[\mathbf{z}])$ 防止表示坍塌
设计动机：对比学习产生对分布偏移不变的强语义表示，编码率正则化替代传统的温度缩放/负样本策略防止坍塌

2. 光学VFM蒸馏¶

做什么：将DINOv3的全局语义和像素级特征迁移到学生
核心思路：蒸馏三类特征，各用独立投影头： $$\mathcal{L}_O = \alpha_1 \mathcal{L}_\text{cos}(\text{[cls]}_F) + \alpha_2 \mathcal{L}_\text{cos}(\text{[p]}_F) + \alpha_3 \mathcal{L}_\text{cos}(\text{[p]}_\text{mid})$$
$\text{[cls]}_F$：最终层class token（全局语义）
$\text{[p]}_F$：最终层patch token（像素级特征）
$\text{[p]}_\text{mid}$：中间层patch token（中层特征）
设计动机：仅蒸馏class token对dense prediction任务不够，需patch-level特征；中间层特征提供互补的中层语义信息

3. 骨干选择与数据策略¶

骨干：Swin Transformer（patch size 4 vs ViT的16），产生更精细的特征分辨率
数据：fMoW-Sentinel（MS）+ fMoW-RGB（光学），用15万张高分辨率航空图替换低分辨率光学波段
双patch embedding：MS用10通道，光学用3通道，共享后续Transformer层

损失函数¶

\[\mathcal{L} = -\mathcal{L}_{MS} - \mathcal{L}_O\]

多光谱和光学目标联合优化，权重系数 $\alpha_1=1, \alpha_2=0.5, \alpha_3=0.5, \gamma=1$。

实验关键数据¶

主实验：语义分割（mIoU）¶

光学分割：

方法	SpaceNet	GB-cattle	GB-pv	GB-chesa.	平均
DINOv3-B (RGB)	79.06	73.01	94.34	64.04	77.61
Copernicus-FM (MS)	75.45	68.88	93.56	55.81	73.43
DEO	82.22	76.22	95.36	75.08	82.22

多光谱分割：

方法	GB-SA-crop	GB-cashew	S1F11	PASTIS	平均
TerraFM (MS)	30.95	59.49	92.72	19.65	50.70
Copernicus-FM (MS)	-	55.71	92.58	21.49	51.11
DEO	36.59	65.60	93.30	23.06	63.51

MS分割平均+4.20 pp超越SOTA（63.51 vs 51.11）

变化检测（F1）¶

方法	LEVIR (光学)	OSCD (MS)	平均
DINOv3-LS	91.8	57.2	74.5
TerraFM	89.5	57.5	73.5
DEO	91.3	59.2	75.3

分类（线性探测）¶

方法	m-bigearthnet F1	m-so2sat Top1	m-eurosat Top1	平均
DINOv3-B	55.48	-	93.3	-
TerraFM	-	47.57	93.1	67.61
DEO	58.43	53.09	93.8	68.44

消融实验¶

组件	光学平均	MS平均	总平均
基础(仅MS自蒸馏)	77.87	60.44	69.16
+DINOv3 [cls]	79.07 (+1.20)	62.81 (+2.37)	70.94
+独立光学路径	81.20 (+2.13)	62.69 (-0.12)	71.95
+DINOv3 [p]	81.74 (+0.53)	62.46	72.10
+光学增强	81.95	63.02 (+0.55)	72.48
+高分辨率光学	82.22 (+0.27)	63.51 (+0.50)	72.87

关键发现¶

光学VFM蒸馏不仅提升光学性能，也显著提升MS性能：加入DINOv3 [cls]蒸馏后MS平均+2.37pp
目标兼容性关键：对比自蒸馏目标与DINOv3的训练目标匹配，使特征空间自然对齐（图3中PCA可视化证实）
所有组件累加有效：从基础69.16到完整72.87，每个组件都有正贡献
DEO综合排名第一：在11个评测中平均排名最高（表4），且模型仅87M参数、预训练数据仅50万张

亮点与洞察¶

目标兼容性洞察深刻：学生的预训练目标应与教师模型的训练目标匹配——这解释了为什么MIM+VFM蒸馏（如Copernicus-FM）效果不如对比蒸馏+VFM蒸馏
效率优秀：仅50万张图训练（TerraFM用1800万张），87M参数（DINOv3-LS 303M），16×A100训练100epoch，就达到全面SOTA
"不损害"的多模态：增加MS能力不牺牲光学性能——这在多模态基础模型中难能可贵
Swin替代ViT：patch size 4产生的精细特征对dense prediction很关键，即使教师是ViT也可以跨架构蒸馏

局限性/可改进方向¶

仅覆盖Sentinel-2的10个波段：未处理SAR、热红外等更多模态
空间分辨率受限：Sentinel-2原生10-60m分辨率，虽部分替换了高分光学数据但MS波段仍为低分辨率
fMoW数据集的地理偏差：主要覆盖特定区域，对极地、海洋等区域泛化未知
未探索更大规模的学生模型是否能进一步受益

评分¶

⭐⭐⭐⭐⭐ — 洞察深刻（目标兼容性）、效率出色（50万张就达到SOTA）、实验全面（11个数据集3个任务），是遥感基础模型领域的优秀工作