ACAM-KD: Adaptive and Cooperative Attention Masking for Knowledge Distillation¶
会议: ICCV 2025
arXiv: N/A (CVF OpenAccess)
代码: 无
领域: autonomous_driving / 知识蒸馏
关键词: 知识蒸馏, 注意力掩码, 跨注意力融合, 空间-通道选择, 目标检测
一句话总结¶
提出 ACAM-KD,一种自适应学生-教师协作注意力掩码知识蒸馏方法,通过跨注意力特征融合(STCA-FF)和自适应空间-通道掩码(ASCM)动态调整蒸馏焦点,在 COCO 检测上超越 SOTA 最高 1.4 mAP,在 Cityscapes 分割上提升 3.09 mIoU。
研究背景与动机¶
为什么现有特征蒸馏方法的注意力选择存在问题? 现有方法的核心问题可归结为三点:
静态性:对于同一张图像,蒸馏的关注区域在整个训练过程中保持不变。即使学生在 Epoch 12 已经很好地学会了某些区域的特征,到 Epoch 24 仍然被强制关注同样的区域——这是低效的,甚至可能有害。
单向性:知识选择完全由教师驱动(FKD、MasKD)或人工启发式(Ground-truth 边界框、RPN 区域)。教师认为重要的区域未必是学生当前学习阶段最需要的。例如 Figure 1 展示:学生在 Epoch 12 的注意力定位甚至优于教师,但到 Epoch 24 却退化为模仿教师的次优注意力。
空间-通道割裂:大多数方法仅做空间维度的特征选择,忽略了不同通道的贡献差异。
为什么需要"协作"? 知识蒸馏不应是学生被动接收教师知识的过程,而应该是双方动态互动的过程——教师提供方向,学生根据自身学习状态反馈需求,掩码随之调整。
方法详解¶
整体框架¶
ACAM-KD 包含两个核心模块,依次作用:
- STCA-FF(Student-Teacher Cross-Attention Feature Fusion):通过跨注意力融合教师和学生的特征,产生交互特征
- ASCM(Adaptive Spatial-Channel Masking):在融合特征上生成自适应的空间掩码和通道掩码
关键理念:掩码不再是固定的或由教师单方面决定的,而是从教师-学生交互特征中动态生成,随着学生的学习状态实时变化。
关键设计¶
Student-Teacher Cross-Attention Feature Fusion (STCA-FF)¶
给定教师和学生的特征图 \(F_T, F_S \in \mathbb{R}^{C \times H \times W}\):
其中 \(W_q \in \mathbb{R}^{C_q \times C}\),\(W_k \in \mathbb{R}^{C_q \times C}\) 将通道降维到 \(C_q = C/2\),\(W_v \in \mathbb{R}^{C \times C}\) 保持原始维度。
为什么教师做 Query、学生做 Key/Value? 教师作为更有知识的模型,通过 Query 引导"关注哪里";学生提供 Key/Value,代表其当前的特征状态。这样注意力矩阵反映的是"教师关注的位置在学生特征空间中的对应"。消融实验(Table 9)证实这种配置比反过来高 0.2 mAP。
注意力矩阵计算:
融合特征:\(F_{fused} = AV \in \mathbb{R}^{C \times H \times W}\)
Adaptive Spatial-Channel Masking (ASCM)¶
在融合特征上引入可学习的选择单元,动态生成两种掩码:
通道掩码:\(M^c = \sigma(m_c \cdot v)\) - \(m_c \in \mathbb{R}^{M \times 1}\):M 个通道选择单元 - \(v \in \mathbb{R}^{1 \times C}\):\(F_{fused}\) 的空间平均池化向量
空间掩码:\(M^s = \sigma(m_s \cdot z)\) - \(m_s \in \mathbb{R}^{M \times C}\):M 个空间选择单元 - \(z \in \mathbb{R}^{C \times HW}\):\(F_{fused}\) 的空间展平
为什么用 M 个掩码而非单一掩码? 多个掩码可以捕捉不同的特征重要性模式。检测任务中 M=6;分割任务中 M=19(等于类别数,每个掩码对应一个语义类别)。
掩码多样性损失:为防止所有掩码收敛到相似模式,引入基于 Dice 系数的多样性损失:
损失函数 / 训练策略¶
通道蒸馏损失:
空间蒸馏损失:
总损失:
其中 \(\alpha = 1\),\(\lambda = 1\)。检测任务在 FPN neck 层做特征蒸馏,分割任务在预测分割图上做蒸馏。
训练细节: - 检测:SGD,momentum=0.9,weight decay=0.0001,采用 inheritance 策略稳定早期训练 - 分割:SGD,weight decay=5e-4,polynomial annealing 学习率调度,初始 LR=0.02,40K 迭代
实验关键数据¶
主实验¶
COCO 目标检测——ResNet-101 教师(Table 1):
| 方法 | RetinaNet mAP | Faster R-CNN mAP | RepPoints mAP |
|---|---|---|---|
| Student baseline (R50) | 37.4 | 38.4 | 38.6 |
| FGD | 39.6 | 40.4 | 41.0 |
| MasKD | 39.8 | 40.8 | 41.1 |
| FreeKD | 39.9 | 40.8 | - |
| ACAM-KD (Ours) | 41.2 (+1.3) | 41.4 (+0.6) | 42.5 (+1.4) |
COCO 目标检测——ResNeXt-101 教师(Table 2):
| 方法 | RetinaNet mAP | Faster R-CNN mAP | RepPoints mAP |
|---|---|---|---|
| Student baseline (R50) | 37.4 | 38.4 | 38.6 |
| MasKD | 40.9 | 42.4 | 41.8 |
| FreeKD | 41.0 | 42.4 | 42.4 |
| ACAM-KD (Ours) | 41.5 | 42.6 | 42.8 |
从 R50 学生到 X101 教师,ACAM-KD 使学生 mAP 提升高达 4.2 点。
Cityscapes 语义分割(Tables 3-5):
| 学生模型 | Baseline mIoU | MasKD | FreeKD | ACAM-KD |
|---|---|---|---|---|
| DeepLabV3-R18 | 72.96 | 77.00 | 76.45 | 77.53 (+0.53) |
| DeepLabV3-MBV2 | 73.12 | 75.26 | - | 76.21 (+0.95) |
| PSPNet-R18 | 72.55 | 75.34 | - | 75.99 (+0.65) |
消融实验¶
空间 vs 通道掩码(Table 8):
| 掩码策略 | mAP | AP_s | AP_m | AP_l |
|---|---|---|---|---|
| Baseline (R50) | 37.4 | 20.0 | 40.7 | 49.7 |
| 仅空间 | 40.9 | 25.4 | 44.3 | 52.3 |
| 仅通道 | 40.4 | 24.5 | 44.1 | 52.3 |
| 空间 + 通道 | 41.2 | 24.6 | 45.5 | 54.1 |
空间掩码对小物体(AP_s)帮助最大(+5.4),二者结合在中大物体上进一步提升。
固定 vs 自适应掩码(Table 10):
| 掩码策略 | mAP | AP_s | AP_m | AP_l |
|---|---|---|---|---|
| 无掩码 | 37.4 | 20.8 | 40.8 | 50.9 |
| 教师离线固定掩码(MasKD 风格) | 39.8 | 21.5 | 43.9 | 54.0 |
| 教师自适应掩码 | 39.9 | 21.7 | 43.7 | 53.9 |
| ACAM-KD(协作自适应) | 41.2 | 24.6 | 45.5 | 54.1 |
关键发现:仅让掩码可学习(39.8 → 39.9)提升微乎其微;但加入学生-教师交互后(39.9 → 41.2)提升巨大,说明协作机制才是性能提升的根本来源。
Cross-attention 中 Query 来源(Table 9):
| Query 来源 | mAP | AP_s | AP_m | AP_l |
|---|---|---|---|---|
| 来自学生 | 41.0 | 24.4 | 45.1 | 54.0 |
| 来自教师 | 41.2 | 24.6 | 45.5 | 54.1 |
关键发现¶
- 协作 > 教师主导:学生-教师协作掩码比纯教师驱动掩码高 1.3+ mAP
- 空间 + 通道互补:二者结合优于任一单独使用
- 自适应 ≠ 可学习:仅让教师掩码可学习提升极小,关键在于引入学生的参与
- 跨架构泛化:在 RetinaNet、Faster R-CNN、RepPoints 三种检测器上一致有效
- 跨任务泛化:检测和分割任务上均达到 SOTA
亮点与洞察¶
- 重新思考蒸馏中的主动性:学生不应只是被动接受者,而应主动参与知识选择
- 掩码动态随训练演化的设计:不同 epoch 对同一图像生成不同的蒸馏掩码
- 简洁的消融验证:Table 10 清晰地隔离了"可学习"和"协作"各自的贡献
- FPN neck 蒸馏 + 分割图蒸馏:对两种任务采用不同的蒸馏位置是合理的适配
- 多样性损失避免掩码退化:简单有效的正则化,Figure 3 可视化展示了掩码的互补性
局限与展望¶
- Cross-attention 模块增加了计算开销(额外的 Q/K/V 投影和注意力计算),文中未单独报告训练时间增加
- 仅在 CNN 架构(ResNet 系列)上验证,未涉及 ViT/Swin 等 Transformer 架构
- M 的选择(检测 M=6,分割 M=19)看起来是经验设定,缺乏敏感性分析
- \(\alpha\) 和 \(\lambda\) 固定为 1,未探索不同超参的影响
- 仅在 COCO 和 Cityscapes 上验证,未涉及其他密集预测任务(如深度估计、全景分割)
相关工作与启发¶
与 MasKD(ICLR'23,可学习 receptive tokens 但离线固定)和 FreeKD(CVPR'24,频域 prompt 引导)相比,ACAM-KD 的核心创新在于在线协作——掩码随训练过程实时更新。与 CWD(通道蒸馏)相比,ACAM-KD 同时优化空间和通道维度。这一工作的启发在于:让学生模型在蒸馏中有更多"发言权" 可能是提升蒸馏效率的关键方向。
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐
相关论文¶
- [ICCV 2025] SDKD: Frequency-Aligned Knowledge Distillation for Lightweight Spatiotemporal Forecasting
- [ICCV 2025] 3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation
- [ICCV 2025] PBCAT: Patch-Based Composite Adversarial Training against Physically Realizable Attacks on Object Detection
- [ICCV 2025] Where, What, Why: Towards Explainable Driver Attention Prediction
- [ICCV 2025] Passing the Driving Knowledge Test