Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation¶

会议: CVPR 2026 arXiv: 2603.02554 代码: GitHub 领域: 分割 / 知识蒸馏 关键词: 知识蒸馏, 域泛化, 视觉基础模型, 语义分割, 多阶段学习

一句话总结¶

提出 Generalizable Knowledge Distillation (GKD)，通过解耦表示学习与任务学习的多阶段蒸馏，以及基于 query 的软蒸馏机制，将 VFM 的跨域泛化能力有效转移到轻量学生模型，F2L 设置下平均提升 +10.6% mIoU。

知识蒸馏 (KD) 在语义分割中广泛用于模型压缩，但传统 KD 方法有一个被普遍忽视的严重缺陷：只保持域内精度，域外泛化能力大幅下降。随着 DINOv2 等视觉基础模型 (VFM) 的兴起，这一问题更加突出——VFM 本身泛化能力很强，但传统 KD 蒸馏后学生模型的泛化反而变差。

作者通过实验验证了关键洞察：任务损失和蒸馏损失在优化方向上存在冲突——任务目标驱动学生走向源域特定的决策边界，蒸馏目标推动学生逼近教师的域不变表示。两者联合优化导致不稳定收敛和泛化退化。

核心问题：能否在蒸馏时不牺牲 VFM 的域外泛化？

GKD 是一个两阶段框架：Stage 1 (Domain-General Distillation)——学生先通过特征蒸馏获得域无关表示；Stage 2 (Task Learning)——冻结学生编码器，只训练解码器完成分割任务。这种解耦设计确保学生先内化可迁移知识，再做任务特化。

两步域通用蒸馏：Stage 1 内部进一步分为两步：(a) 任务无关蒸馏——在代理数据集 ImageNet 上蒸馏，缩小学生与教师的初始表示差距：\(\min_{\theta_s} \mathbb{E}_{x_P \sim D_P}[\mathcal{L}_{QSD}(\mathcal{F}_{\theta_t}(x_P), \mathcal{F}_{\theta_s}(x_P))]\)；(b) 域无关蒸馏——在源域数据上继续蒸馏（但不加任务标签），让学生接触任务相关但域无关的特征。关键是全程不引入任务监督，避免域特定偏差。
Query-based Soft Distillation (QSD)：核心蒸馏机制，解决传统逐点特征对齐的不足。学生特征 \(v_s\) 作为 query，通过注意力机制检索教师特征 \(v_t\) 中的空间知识：\(W = \varphi(v_s) \cdot v_t^\top\)，重构学生特征 \(v_s' = \sigma(\varphi(v_s) \cdot v_t^\top) \cdot \phi(v_s)\)，再用 MSE 约束 \(\mathcal{L}_{feat} = \|v_s' - v_t\|_2^2\)。设计动机：VFM 的空间结构信息具有强域不变性（PCA 可视化证实），QSD 让学生选择性地获取可迁移的关系结构，而非被动模仿局部激活。
掩码补丁蒸馏 + CLS token 蒸馏：受 DINOv2 启发，引入掩码蒸馏损失 \(\mathcal{L}_{mask} = \|v_s'^{mask} - v_t\|_2^2\) 挖掘 VFM 隐藏知识；CLS token 蒸馏 \(\mathcal{L}_{cls} = \|v_s'^{cls} - v_t^{cls}\|_2^2\) 传递全局语义。总蒸馏损失 \(\mathcal{L}_{QSD} = \alpha\mathcal{L}_{feat} + \beta\mathcal{L}_{mask} + \gamma\mathcal{L}_{cls}\)，超参数均设为 1。

Stage 1：AdamW，lr=5e-4，F2L 先在 ImageNet 训练 100 epoch (batch=512, 224×224)，再在源域 300 epoch (batch=128, 512×512)
Stage 2：冻结编码器，用 Mask2Former 解码器，backbone lr=1e-5, decoder lr=1e-4，40K iterations, batch=4, crop 512×512
分割损失继承 Mask2Former 的标准配置

数据集设置	指标 (Avg mIoU)	GKD (F2L DeiT ViT-B)	最佳传统 KD	提升
GTAV → Citys+BDD+Map	Avg mIoU	57.9	51.1 (G2SD)	+6.8
Cityscapes → ACDC	Avg mIoU	64.6	53.8 (G2SD)	+10.8
Potsdam-RGB → P-I+V-I	Avg mIoU	65.1	59.5 (G2SD)	+5.6

数据集设置	指标 (Avg mIoU)	GKD (F2L DeiT ViT-S)	最佳传统 KD	提升
GTAV → Citys+BDD+Map	Avg mIoU	54.1	47.8 (G2SD)	+6.3
Cityscapes → ACDC	Avg mIoU	57.7	51.2 (G2SD)	+6.5