ACAM-KD: Adaptive and Cooperative Attention Masking for Knowledge Distillation¶

会议: ICCV 2025
arXiv: N/A (CVF OpenAccess)
代码: 无
领域: autonomous_driving / 知识蒸馏
关键词: 知识蒸馏, 注意力掩码, 跨注意力融合, 空间-通道选择, 目标检测

一句话总结¶

提出 ACAM-KD，一种自适应学生-教师协作注意力掩码知识蒸馏方法，通过跨注意力特征融合（STCA-FF）和自适应空间-通道掩码（ASCM）动态调整蒸馏焦点，在 COCO 检测上超越 SOTA 最高 1.4 mAP，在 Cityscapes 分割上提升 3.09 mIoU。

研究背景与动机¶

为什么现有特征蒸馏方法的注意力选择存在问题？ 现有方法的核心问题可归结为三点：

静态性：对于同一张图像，蒸馏的关注区域在整个训练过程中保持不变。即使学生在 Epoch 12 已经很好地学会了某些区域的特征，到 Epoch 24 仍然被强制关注同样的区域——这是低效的，甚至可能有害。

单向性：知识选择完全由教师驱动（FKD、MasKD）或人工启发式（Ground-truth 边界框、RPN 区域）。教师认为重要的区域未必是学生当前学习阶段最需要的。例如 Figure 1 展示：学生在 Epoch 12 的注意力定位甚至优于教师，但到 Epoch 24 却退化为模仿教师的次优注意力。

空间-通道割裂：大多数方法仅做空间维度的特征选择，忽略了不同通道的贡献差异。

为什么需要"协作"？ 知识蒸馏不应是学生被动接收教师知识的过程，而应该是双方动态互动的过程——教师提供方向，学生根据自身学习状态反馈需求，掩码随之调整。

方法详解¶

整体框架¶

ACAM-KD 包含两个核心模块，依次作用：

STCA-FF（Student-Teacher Cross-Attention Feature Fusion）：通过跨注意力融合教师和学生的特征，产生交互特征
ASCM（Adaptive Spatial-Channel Masking）：在融合特征上生成自适应的空间掩码和通道掩码

关键理念：掩码不再是固定的或由教师单方面决定的，而是从教师-学生交互特征中动态生成，随着学生的学习状态实时变化。

关键设计¶

Student-Teacher Cross-Attention Feature Fusion (STCA-FF)¶

给定教师和学生的特征图 \(F_T, F_S \in \mathbb{R}^{C \times H \times W}\)：

\[Q = W_q F_T, \quad K = W_k F_S, \quad V = W_v F_S\]

其中 \(W_q \in \mathbb{R}^{C_q \times C}\)，\(W_k \in \mathbb{R}^{C_q \times C}\) 将通道降维到 \(C_q = C/2\)，\(W_v \in \mathbb{R}^{C \times C}\) 保持原始维度。

为什么教师做 Query、学生做 Key/Value？ 教师作为更有知识的模型，通过 Query 引导"关注哪里"；学生提供 Key/Value，代表其当前的特征状态。这样注意力矩阵反映的是"教师关注的位置在学生特征空间中的对应"。消融实验（Table 9）证实这种配置比反过来高 0.2 mAP。

注意力矩阵计算：

\[A = \text{softmax}\left(\frac{QK}{\sqrt{C_q}}\right) \in \mathbb{R}^{HW \times HW}\]

融合特征：\(F_{fused} = AV \in \mathbb{R}^{C \times H \times W}\)

Adaptive Spatial-Channel Masking (ASCM)¶

在融合特征上引入可学习的选择单元，动态生成两种掩码：

通道掩码：\(M^c = \sigma(m_c \cdot v)\) - \(m_c \in \mathbb{R}^{M \times 1}\)：M 个通道选择单元 - \(v \in \mathbb{R}^{1 \times C}\)：\(F_{fused}\) 的空间平均池化向量

空间掩码：\(M^s = \sigma(m_s \cdot z)\) - \(m_s \in \mathbb{R}^{M \times C}\)：M 个空间选择单元 - \(z \in \mathbb{R}^{C \times HW}\)：\(F_{fused}\) 的空间展平

为什么用 M 个掩码而非单一掩码？ 多个掩码可以捕捉不同的特征重要性模式。检测任务中 M=6；分割任务中 M=19（等于类别数，每个掩码对应一个语义类别）。

掩码多样性损失：为防止所有掩码收敛到相似模式，引入基于 Dice 系数的多样性损失：

\[L_{div} = \frac{2 \sum_{i=1}^M \sum_{j=1, j \neq i}^M M_i \cdot M_j}{\sum_{i=1}^M M_i^2 + \sum_{j=1}^M M_j^2}\]

损失函数 / 训练策略¶

通道蒸馏损失：

\[L^c_{distill} = \frac{1}{M} \sum_{m=1}^M \frac{1}{HW} \sum_{k=1}^C M^c_{m,k} \| M^c_m \odot (F_T - f_{align}(F_S)) \|_2^2\]

空间蒸馏损失：

\[L^s_{distill} = \frac{1}{M} \sum_{m=1}^M \frac{1}{C} \sum_{p=1}^{H \times W} M^s_{m,p} \| M^s_m \odot (F_T - f_{align}(F_S)) \|_2^2\]

总损失：

\[L = L_{task} + \alpha (L^c_{distill} + L^s_{distill}) + \lambda L_{div}\]

其中 \(\alpha = 1\)，\(\lambda = 1\)。检测任务在 FPN neck 层做特征蒸馏，分割任务在预测分割图上做蒸馏。

训练细节： - 检测：SGD，momentum=0.9，weight decay=0.0001，采用 inheritance 策略稳定早期训练 - 分割：SGD，weight decay=5e-4，polynomial annealing 学习率调度，初始 LR=0.02，40K 迭代

实验关键数据¶

主实验¶

COCO 目标检测——ResNet-101 教师（Table 1）：

方法	RetinaNet mAP	Faster R-CNN mAP	RepPoints mAP
Student baseline (R50)	37.4	38.4	38.6
FGD	39.6	40.4	41.0
MasKD	39.8	40.8	41.1
FreeKD	39.9	40.8	-
ACAM-KD (Ours)	41.2 (+1.3)	41.4 (+0.6)	42.5 (+1.4)

COCO 目标检测——ResNeXt-101 教师（Table 2）：

方法	RetinaNet mAP	Faster R-CNN mAP	RepPoints mAP
Student baseline (R50)	37.4	38.4	38.6
MasKD	40.9	42.4	41.8
FreeKD	41.0	42.4	42.4
ACAM-KD (Ours)	41.5	42.6	42.8

从 R50 学生到 X101 教师，ACAM-KD 使学生 mAP 提升高达 4.2 点。

Cityscapes 语义分割（Tables 3-5）：

学生模型	Baseline mIoU	MasKD	FreeKD	ACAM-KD
DeepLabV3-R18	72.96	77.00	76.45	77.53 (+0.53)
DeepLabV3-MBV2	73.12	75.26	-	76.21 (+0.95)
PSPNet-R18	72.55	75.34	-	75.99 (+0.65)

消融实验¶

空间 vs 通道掩码（Table 8）：

掩码策略	mAP	AP_s	AP_m	AP_l
Baseline (R50)	37.4	20.0	40.7	49.7
仅空间	40.9	25.4	44.3	52.3
仅通道	40.4	24.5	44.1	52.3
空间 + 通道	41.2	24.6	45.5	54.1

空间掩码对小物体（AP_s）帮助最大（+5.4），二者结合在中大物体上进一步提升。

固定 vs 自适应掩码（Table 10）：

掩码策略	mAP	AP_s	AP_m	AP_l
无掩码	37.4	20.8	40.8	50.9
教师离线固定掩码（MasKD 风格）	39.8	21.5	43.9	54.0
教师自适应掩码	39.9	21.7	43.7	53.9
ACAM-KD（协作自适应）	41.2	24.6	45.5	54.1

关键发现：仅让掩码可学习（39.8 → 39.9）提升微乎其微；但加入学生-教师交互后（39.9 → 41.2）提升巨大，说明协作机制才是性能提升的根本来源。

Cross-attention 中 Query 来源（Table 9）：

Query 来源	mAP	AP_s	AP_m	AP_l
来自学生	41.0	24.4	45.1	54.0
来自教师	41.2	24.6	45.5	54.1

关键发现¶

协作 > 教师主导：学生-教师协作掩码比纯教师驱动掩码高 1.3+ mAP
空间 + 通道互补：二者结合优于任一单独使用
自适应 ≠ 可学习：仅让教师掩码可学习提升极小，关键在于引入学生的参与
跨架构泛化：在 RetinaNet、Faster R-CNN、RepPoints 三种检测器上一致有效
跨任务泛化：检测和分割任务上均达到 SOTA

亮点与洞察¶

重新思考蒸馏中的主动性：学生不应只是被动接受者，而应主动参与知识选择
掩码动态随训练演化的设计：不同 epoch 对同一图像生成不同的蒸馏掩码
简洁的消融验证：Table 10 清晰地隔离了"可学习"和"协作"各自的贡献
FPN neck 蒸馏 + 分割图蒸馏：对两种任务采用不同的蒸馏位置是合理的适配
多样性损失避免掩码退化：简单有效的正则化，Figure 3 可视化展示了掩码的互补性

局限与展望¶

Cross-attention 模块增加了计算开销（额外的 Q/K/V 投影和注意力计算），文中未单独报告训练时间增加
仅在 CNN 架构（ResNet 系列）上验证，未涉及 ViT/Swin 等 Transformer 架构
M 的选择（检测 M=6，分割 M=19）看起来是经验设定，缺乏敏感性分析
\(\alpha\) 和 \(\lambda\) 固定为 1，未探索不同超参的影响
仅在 COCO 和 Cityscapes 上验证，未涉及其他密集预测任务（如深度估计、全景分割）

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐