Cross-Architecture Distillation Made Simple with Redundancy Suppression¶
会议: ICCV 2025
arXiv: 2507.21844
代码: 无
领域: model_compression
关键词: knowledge distillation, cross-architecture, redundancy suppression, feature decorrelation, CNN-ViT-MLP
一句话总结¶
提出RSD(Redundancy Suppression Distillation),通过跨架构不变性最大化和特征去相关来提取架构无关知识,仅用一个简单的RSD损失和轻量MLP解耦模块,在CIFAR-100和ImageNet-1k上大幅超越跨架构蒸馏先驱方法OFA,且参数开销仅为其小部分。
研究背景与动机¶
知识蒸馏(KD)旨在将预训练教师模型的能力转移给轻量学生模型。传统KD大多在同架构间进行(如CNN→CNN),但随着ViT、MLP-Mixer等新架构的出现,跨架构知识蒸馏(CAKD)变得越来越重要(最佳模型往往不适合部署)。→ 核心挑战:异构特征具有不同维度、不同甚至冲突的模式特征,强制学生盲目吸收教师特征会导致性能退化。→ 先驱方法OFA需要为不同架构设计定制的投影模块(如CNN用深度可分离卷积、ViT用注意力块),将特征投影到"架构无关"的logit空间,但这导致复杂设计和巨大参数开销(ConvNeXt-T→Swin-N时投影器参数是学生的3倍)。→ 本文的核心insight:不需要复杂的投影,只需通过冗余信息抑制来提取异构表示间的共性知识。
方法详解¶
整体框架¶
RSD作用于教师和学生的倒数第二层嵌入(penultimate-layer embeddings),通过一个轻量AAD解耦模块对齐维度后,计算跨架构的Pearson相关矩阵并施加RSD损失。总损失为\(\mathcal{L} = \mathcal{L}_{CE} + \lambda \mathcal{L}_{RSD}\)。训练结束后AAD丢弃,推理无额外开销。
关键设计¶
-
冗余抑制蒸馏(RSD)损失:
- 功能:提取教师和学生表示中的架构无关共性知识
- 核心思路:构建教师特征\(\mathbf{z}^t\)和学生特征\(\mathbf{z}^s\)间的Pearson相关矩阵\(\mathbf{P} \in \mathbb{R}^{D \times D}\),优化目标为恒等矩阵\(\mathbf{T} = I\)。(1) 对角线元素→1:最大化同维度间的跨架构不变性(提取共性知识);(2) 非对角线元素→0:去相关不同特征维度间的互信息(抑制冗余架构特有信息)。损失为\(\mathcal{L}_{RSD} = d(\mathbf{P}(h(\mathbf{z}^s), \mathbf{z}^t), \mathbf{T})\),使用MSE距离。非对角线损失可加权系数κ调节
- 设计动机:受经典无监督特征学习理论(Barlow Twins信息最大化、特征去相关)启发,互信息最小化等价于提取统计独立的架构无关特征
-
架构无关知识解耦(AAD)模块:
- 功能:缓冲学生内部表示不被RSD目标完全覆盖,保留学生架构独有的有益能力
- 核心思路:两层FC(expander + adaptor),中间接BatchNorm和GeLU激活。expander将学生嵌入映射到高维空间,adaptor对齐到教师嵌入维度
- 设计动机:不同架构有独特的优势(如CNN的局部纹理敏感性是ViT不具备的),完全用架构无关知识覆盖会丢失这些能力。AAD作为缓冲层,让RSD优化作用在投影后的表示上,而非直接修改学生内部表示
-
选择倒数第二层嵌入的设计考量:
- 功能:避免中间特征的复杂维度对齐问题
- 核心思路:倒数第二层嵌入始终是1D向量(非feature map或token),无需架构特定操作(深度可分离卷积/token操作等)。比中间特征更接近网络输出,架构特有性更弱,更适合提取架构无关信息
- 设计动机:这正是OFA复杂性的根源——其需要对不同架构的中间特征设计不同的投影模块
损失函数 / 训练策略¶
RSD损失可用约8行PyTorch代码实现:归一化特征→计算互相关矩阵→对角线MSE+非对角线加权MSE。遵循OFA的训练配置。RSD也可应用在logit空间,作为logit蒸馏器同样表现优异。
实验关键数据¶
主实验¶
CIFAR-100(12对异构教师-学生,部分展示):
| 教师→学生 | From Scratch | KD | OFA | RSD | RSD vs OFA |
|---|---|---|---|---|---|
| Swin-T→ResNet18 | 74.01 | 78.74 | 80.54 | 83.92 | +3.38 |
| ViT-S→MobileNetV2 | 73.68 | 72.77 | 78.45 | 81.68 | +3.23 |
| ConvNeXt-T→DeiT-T | 68.00 | 72.99 | 75.76 | 82.46 | +6.70 |
| ConvNeXt-T→ResMLP-S12 | 66.56 | 72.25 | 81.22 | 84.21 | +2.99 |
| 平均增益 | - | +3.17 | +7.47 | +10.69 | +3.22 |
ImageNet-1k(15对异构教师-学生,部分展示):
| 教师→学生 | From Scratch | OFA | RSD | RSD vs OFA |
|---|---|---|---|---|
| Swin-T→ResNet18 | 69.75 | 71.85 | 72.13 | +0.28 |
| ConvNeXt-T→Swin-N | 75.53 | 77.50 | 77.70 | +0.20 |
| ConvNeXt-T→ResMLP-S12 | 76.65 | 77.53 | 78.41 | +0.88 |
| 平均增益 | - | +2.20 | +2.34 | +0.14 |
消融实验¶
| 配置 | Swin-T→ResNet18 | ConvNeXt-T→ResMLP-S12 | 说明 |
|---|---|---|---|
| Baseline (scratch) | 74.01 | 76.65 | 无蒸馏 |
| + RSD-corr only | 80.65 | 83.40 | 仅不变性最大化 |
| + RSD-decorr | 83.92 | 84.21 | 加入去相关(完整RSD) |
AAD效果(CIFAR-100/ImageNet):
| 配置 | ViT-S→ResMLP | ConvNeXt-T→Mixer |
|---|---|---|
| RSD完整 | 82.94 | 80.73 |
| w/o AAD | 82.26 (-0.68) | 79.93 (-0.80) |
参数开销对比(ConvNeXt-T→Swin-N @ ImageNet):
| 方法 | 学生参数 | 额外参数 | 额外/学生比 |
|---|---|---|---|
| OFA | 9.6M | 28.2M | 2.94x |
| RSD | 9.6M | ~2.8M | 0.29x |
RSD作为logit蒸馏器:
| Logit Loss | Swin-T→ResNet18 | ConvNeXt-T→ResMLP |
|---|---|---|
| KD | 78.74 | 72.25 |
| DKD | 80.26 | 73.22 |
| OFA (仅logit部分) | 80.60 | 78.87 |
| RSD on logits | 83.23 | 81.15 |
关键发现¶
- RSD在CIFAR-100上平均增益+10.69%,显著超越OFA的+7.47%
- ConvNeXt-T→DeiT-T上RSD领先OFA 6.70%,几乎等于OFA与无蒸馏的差距
- RSD单独作为logit蒸馏器就能超越OFA的完整框架(含所有复杂投影器)
- 去相关目标在大多数情况下进一步提升性能
- RSD可与OFA互补:替换OFA中的所有loss为RSD loss带来额外提升
- CKA可视化表明RSD在中层和深层显著增加了异构架构间的特征相似性
亮点与洞察¶
- "简而有效"的典范:8行代码的RSD损失超越了复杂得多的OFA,参数开销仅为1/10
- 冗余抑制视角对跨架构蒸馏问题的重新定义非常精准:不是学习如何对齐异构特征,而是学习如何去除架构特有的冗余信息
- 选择倒数第二层嵌入而非中间特征是一个聪明的设计决策,彻底规避了异构特征对齐难题
- AAD的"保留学生独有能力"设计体现了对蒸馏本质的深入理解
局限与展望¶
- 在ImageNet上优势不如CIFAR-100显著(+2.34% vs +10.69%),大规模数据集上还有提升空间
- 仅使用1D嵌入,无法利用2D特征图的丰富空间信息,限制了向检测等空间敏感任务的扩展
- 超参数λ和κ有一定敏感性,需要调优
- 未探索更多下游任务(如目标检测、语义分割)的跨架构蒸馏
相关工作与启发¶
- Barlow Twins的信息最大化+去相关原理被巧妙地转化为跨架构蒸馏目标
- 与域泛化中的"域不变表示学习"有概念层面的联系,但上下文和方法论本质不同
- RSD的简洁性和通用性使其有潜力成为CAKD领域的基准方法
评分¶
- 新颖性: ⭐⭐⭐⭐ 冗余抑制视角新颖,但核心技术(相关矩阵+去相关)借鉴自SSL领域
- 实验充分度: ⭐⭐⭐⭐⭐ 12+15对异构模型,CIFAR+ImageNet验证,消融/兼容性/可视化全面
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,动机推导自然,与OFA的对比分析透彻
- 价值: ⭐⭐⭐⭐⭐ 简单有效的方法对社区价值极大,有望成为CAKD的强基线
相关论文¶
- [ICCV 2025] Competitive Distillation: A Simple Learning Strategy for Improving Visual Classification
- [NeurIPS 2025] Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching
- [CVPR 2025] DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation
- [ICCV 2025] Knowledge Distillation with Refined Logits
- [ECCV 2024] Simple Unsupervised Knowledge Distillation With Space Similarity