Perspective-Aware Teaching: Adapting Knowledge for Heterogeneous Distillation¶

会议: ICCV 2025
arXiv: 2501.08885
代码: https://github.com/jimmylin0979/PAT.git
领域: model_compression
关键词: 知识蒸馏, 异构蒸馏, 视角对齐, 自适应教师, 特征蒸馏

一句话总结¶

提出PAT（Perspective-Aware Teaching）框架，通过区域感知注意力（RAA）解决异构架构间的视角不匹配问题，通过自适应反馈提示（AFP）解决教师无感知问题，使得特征级蒸馏首次在异构知识蒸馏场景中全面超越logits级方法。

研究背景与动机¶

知识蒸馏（KD）需要将预训练大模型的知识迁移到轻量学生模型。现有KD方法主要假设teacher-student架构同构（如CNN→CNN），但实际中架构种类繁多（CNN、ViT、MLP-Mixer等），跨架构蒸馏需求日益增长。

跨架构蒸馏面临两个核心挑战：

视角不匹配（View Mismatch）: 不同架构的感受野和归纳偏置不同（ViT全局→局部，CNN局部→全局），同一stage的特征"看到"的信息不同

教师无感知（Teacher Unawareness）: 教师模型独立训练后冻结，不知道学生的学习进度，产生的中间特征未必适合蒸馏

此前的SOTA方法OFA-KD虽能处理跨架构蒸馏，但将学生特征投影到logits空间导致丢失空间信息，限制了在检测等下游任务上的表现。

方法详解¶

整体框架¶

PAT框架包含两个核心模块：RAA处理视角不匹配、AFP让教师自适应学生反馈。所有teacher和student模型均分为4个stage，进行stage-wise特征对齐。

关键设计¶

Region-Aware Attention (RAA): 解决视角不匹配问题。将学生模型各stage特征分别patchify为 $\frac{N_q}{4}$ 个patch，通过卷积投影映射到统一维度 $\mathbb{R}^{\frac{N_q}{4}\times d}$，拼接所有stage特征后送入自注意力模块： $$F^{S'} = \text{Softmax}\left(\frac{(W_qF^S)(W_kF^S)^T}{\sqrt{d}}\right)W_vF^S$$ 通过注意力机制让学生学会整合不同区域和stage的特征，生成与教师视角相似的表征。设计动机：不同架构对空间的"观察方式"不同，注意力机制的灵活性可无缝适配任何架构。
Adaptive Feedback Prompt (AFP): 解决教师无感知问题。在教师模型每个stage前插入AFP模块，包含Fusion Block和Prompt Block。利用上一迭代的student-teacher特征差异作为反馈： $$\text{Feedback}_i = M_i^{AFP}(F_{prev,i}^S) - F_{prev,i}^T$$ 将反馈与教师特征拼接后经Fusion Block和Prompt Block处理，产出"蒸馏友好"的教师特征。使用上一迭代而非当前迭代的特征，避免模型简单复制空间对齐的反馈。
正则化损失: 引入KL散度约束 $L_{Reg} = L_{KL}(p^T, p^{T'})$，防止AFP过度修改教师特征导致退化为学生特征的恒等映射。

损失函数 / 训练策略¶

总损失函数： $$L_{PAT} = L_{CE} + \alpha L_{KL} + \beta L_{FD} + \gamma L_{Reg}$$ - $L_{CE}$: 标准交叉熵损失 - $L_{KL}$: logits级KL散度蒸馏损失 - $L_{FD}$: 特征匹配损失，使用ReviewKD的层级上下文损失（HCL） - $L_{Reg}$: AFP正则化损失

实验关键数据¶

主实验 (CIFAR-100异构蒸馏)¶

Teacher → Student	From Scratch	OFA (SOTA)	FitNet	PAT
ConvNeXt-T → DeiT-T	68.00	75.76	60.78	79.59
ConvNeXt-T → ResMLP-S12	66.56	81.22	45.47	83.50
Swin-T → ResNet18	74.01	80.54	78.87	81.22
ViT-S → MobileNetV2	73.68	78.45	73.54	78.87
平均提升	-	+7.47	-5.20	+8.17

ImageNet-1K:

Teacher → Student	KD	OFA	PAT
Swin-T → ResNet18	71.14	71.85	71.54
ConvNeXt-T → DeiT-T	74.00	74.41	74.44
Swin-T → ResMLP-S12	76.67	77.31	77.59

COCO检测 (Faster RCNN):

Teacher → Student	KD	OFA	FitNet	PAT
Swin-T → ResNet18 (mAP)	34.07	33.37	35.23	35.62
Swin-T → MobileNetV2 (mAP)	31.46	31.69	32.48	32.97

消融实验 (模块有效性, ConvNeXt-T → DeiT-T)¶

配置	CIFAR-100 Acc
Baseline (FitNet)	60.71
+ RAA	70.12
+ RAA + AFP (无反馈)	79.13
+ RAA + AFP (有反馈)	79.59

RAA模块带来最大提升（+9.41%），AFP进一步提升，加入学生反馈后效果最佳。

关键发现¶

特征蒸馏首次在异构KD中全面超越logits方法: 此前FitNet等特征方法在异构场景表现极差（如ConvNeXt-T→Swin-P仅24.06%），PAT解决了这一长期痛点
PAT在CIFAR-100上最高提升16.94%（ConvNeXt-T→DeiT-T，比FitNet高18.81%）
在目标检测任务上，PAT的特征级蒸馏明显优于OFA等logits方法——因为空间信息对检测至关重要
RAA注意力图显示不同架构对的模式截然不同：MLP学生学CNN教师时呈对角线模式（局部聚合），CNN学ViT时呈网格模式（全局上下文聚合）
去掉KL损失后PAT仍接近SOTA，证明性能提升主要来自特征级对齐而非logits匹配
AFP在所有4个stage都采用效果最好，但早期stage的贡献更大（stage 1: 75.43%）
额外参数仅在训练时需要，不影响学生模型推理效率

亮点与洞察¶

问题分析到位: 将异构KD的困难归纳为"视角不匹配"和"教师无感知"两个正交问题，方案设计清晰
通用性强: RAA对任何架构通用，无需针对具体teacher-student对设计
注意力可视化有说服力: 清晰展示了不同架构对如何在RAA中学习不同的特征混合策略
检测任务验证: 证明保留空间信息的特征蒸馏在下游任务中比logits方法更有价值

局限与展望¶

额外参数量较大（14.48M），训练时间是KD的3倍（208s vs 66s/epoch）
CNN学生的提升不如ViT/MLP学生那么显著，可能需要更长的训练
$N_q$ 的选择需权衡性能和显存（36→144性能持续提升但显存也增加）
未在更大规模模型（如ViT-L、Swin-L）上验证
AFP可能在某些模型对上使教师特征退化为学生特征的恒等映射，需要正则化约束

评分¶

新颖性: ⭐⭐⭐⭐ RAA和AFP模块设计有洞察，解决了异构KD的核心瓶颈
实验充分度: ⭐⭐⭐⭐⭐ 12种异构对、3个数据集、检测任务、详细消融
写作质量: ⭐⭐⭐⭐ 问题定义清晰，图表informative
价值: ⭐⭐⭐⭐ 使特征级蒸馏在异构场景真正可用，具有重要的方法论价值