Distillation Dynamics: Towards Understanding Feature-Based Distillation in Vision Transformers¶

会议: AAAI 2026
arXiv: 2511.06848
代码: https://github.com/thy960112/Distillation-Dynamics
领域: 模型压缩
关键词: 知识蒸馏, Vision Transformer, 频谱分析, 信息瓶颈, 负迁移

一句话总结¶

提出"蒸馏动力学"分析框架（频谱分析+信息熵+激活幅值），揭示ViT具有独特的U型信息处理模式（先压缩后扩展），证明feature-based蒸馏在ViT中失败的根本原因是teacher后层的分布式高维编码范式与student有限通道容量之间的表征范式不匹配，而非简单的容量差距。

背景与动机¶

feature-based知识蒸馏（FitNet等）在CNN压缩中非常成功，但令人惊讶地在ViT中反而比简单的logit蒸馏更差。ViTKD等工作虽然观察到了这个现象，但未解释根本原因。这个gap严重制约了ViT压缩策略的设计——我们至今不理解为什么CNN的成功经验不能直接迁移到ViT。

核心问题¶

为什么对CNN非常有效的feature-based蒸馏方法在ViT上不仅无效，反而造成负迁移？具体来说，ViT内部的信息处理模式是什么？teacher和student之间的什么差异导致了feature mimicry的失败？

方法详解¶

整体框架¶

提出三维度分析框架"蒸馏动力学"：(1) 沿通道维度的FFT频谱分析揭示特征编码策略，(2) Shannon熵分析量化各层信息复杂度，(3) 激活幅值追踪信号传播强度。三个视角交叉验证，确保观察到的模式不是单一测量的artifact。

关键发现¶

U型信息处理模式: ViT（CaiT-S24/标准ViT/MAE预训练ViT）的逐层Shannon熵和激活幅值都呈U型——前半部分（层1-9）信息压缩（熵↓幅值↓），后半部分（层9-24）信息扩展（熵↑幅值↑）。这对应Information Bottleneck理论的两阶段：先过滤掉无关信息，后构建任务特定的高级语义。这是ViT学习到的行为（训练早期无此模式，逐步形成），且在supervised/self-supervised训练中一致出现。
通道维度频谱的三阶段演化: 早期层（Phase 1）频谱均匀嘈杂→中间层（Phase 2）呈低通滤波特性（channels高度相关，表示压缩）→后期层（Phase 3）频谱再次均匀但能量更高（channels去相关，分布式高维编码）。关键发现：CNN（ResNet）的后期层仍保持低通特性（Phase 2），不像ViT那样转为分布式编码——这解释了CNN蒸馏成功而ViT蒸馏失败。
表征范式不匹配是负迁移根因: Teacher ViT后层采用分布式高维编码策略——信息分散纠缠在整个通道空间中。Student ViT通道维度有限，无法复制这种策略，被迫采用紧凑编码范式。强制student模仿teacher后层表示→提供conflicting supervisory signal→扰乱student自身的U型发展轨迹→性能下降。
蒸馏演化分析: SoftKD下student自然发展出U型模式；SpectralKD-Last（对齐后层）打压student后层的自然扩展；SpectralKD-First（对齐早层）加速特征提取但阻碍压缩阶段发展；两者结合over-regularize两个阶段→压平瓶颈。

实验验证¶

两种蒸馏方法验证分析结论：SpectralKD（频域特征对齐）和ProjectorKD（FitNet式投影对齐），teacher=CaiT-S24，student=DeiT-Tiny，ImageNet-1k。

实验关键数据¶

方法	对齐层	Top-1 Acc
SoftKD (logit only)	-	76.99%
SpectralKD	First1+Last1	77.08%
SpectralKD	First1	77.00%
SpectralKD	Last1	76.83% (-0.16)
SpectralKD	Last1 (β=0.1)	76.48% (-0.51)
SpectralKD	Last8	76.69% (-0.30)
ProjectorKD	Last1	76.72% (-0.27)
SoftKD (500ep)	-	78.07%
SpectralKD Last1 (500ep)	Last1	77.59% (-0.48)

后层feature蒸馏一致地比纯logit蒸馏更差。减小蒸馏权重β反而更差（0.2→0.1时76.83→76.48），延长训练也无法弥补（差距从0.16扩大到0.48）。

消融实验要点¶

U型模式在ViT/CaiT/MAE预训练模型中一致出现，是ViT的universal特征
CNN（ResNet101）后层保持低通频谱，不转为分布式编码→在解释CNN蒸馏成功
降低后层蒸馏权重β反而更差→问题不是magnitude而是direction（方向性冲突）
ViT-Large作为teacher也出现后层蒸馏的轻微负迁移（76.85→76.58）

亮点¶

"U型信息处理模式"是ViT的fundamental特征——这个发现有很高的理论价值，解释了很多已有的经验观察
通道维度FFT分析是一个非常创新的工具——不是传统的空间FFT，而是沿channel做FFT，揭示编码策略
CNN vs ViT的后层频谱差异精确解释了蒸馏效果差异——CNN不利用全通道容量→student可以模仿；ViT充分利用→student无法模仿
"蒸馏是引导发展轨迹而非静态知识复制"这个视角非常深刻
减小β反而更差的"反直觉"发现和解释（破坏了equilibrium）很有启发性

局限性 / 可改进方向¶

主要是分析论文，提出的蒸馏方法（SpectralKD/ProjectorKD）只是验证分析的工具，实际性能提升有限
未基于分析insights设计真正有效的ViT蒸馏方法（让"phase-specific distillation"只停留在建议层面）
实验仅在ImageNet分类上，未验证在检测/分割下游任务中是否有相同结论
U型模式的形成机制（为什么ViT学到这个而CNN不会）未深入分析

与相关工作的对比¶

vs ViTKD: ViTKD提出ViT-specific蒸馏方法但未解释失败原因，本文首次给出机制性解释
vs FitNet: FitNet的"让student模仿teacher中间层"在CNN上成功是因为CNN后层仍是紧凑编码，本文揭示ViT的分布式编码是根本区别
vs Information Bottleneck理论: 本文提供了ViT中IB理论的直接经验证据（U型熵曲线）

启发与关联¶

核心启发：ViT蒸馏应该只对齐早期-中间层（压缩阶段），避免后层对齐。这对EM-KD、FiCoCo等方法有直接指导意义
idea触发：既然student无法模仿teacher的分布式编码，能否设计"编码翻译器"——将teacher的分布式表示翻译成student可消化的紧凑编码？
与CAMERA的微专家概念结合：ViT后层的分布式编码可能对应不同attention head的"微专家"分工，能否只蒸馏相关head？
U型模式对VLM token pruning也有启示：应该在entropy最低点（瓶颈处）进行token压缩

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次从信息论+频域角度解释ViT蒸馏失败，U型模式和通道频谱分析都是genuinely original的工具
实验充分度: ⭐⭐⭐⭐ 分析充分但验证性实验偏少（仅ImageNet分类，2种蒸馏方法）
写作质量: ⭐⭐⭐⭐⭐ 论证逻辑严密，从现象→分析→解释→验证层层递进，配图精美直观
价值: ⭐⭐⭐⭐⭐ 为ViT压缩提供fundamental theoretical guidance，长期影响力大