Condensed Data Expansion Using Model Inversion for Knowledge Distillation¶
会议: AAAI 2026
arXiv: 2408.13850
代码: 无
领域: 模型压缩
关键词: 知识蒸馏, 数据集浓缩, 模型反演, 特征对齐, 无数据蒸馏
一句话总结¶
提出用浓缩数据集作为原型指导模型反演(MI)过程,通过特征对齐判别器使生成的合成数据与浓缩样本分布一致,从而扩展浓缩数据集用于知识蒸馏,在 CIFAR/ImageNet 上比标准 MI 蒸馏提升高达 11.4%。
研究背景与动机¶
领域现状¶
领域现状:领域现状**:数据集浓缩可以将大规模数据压缩为少量合成样本(每类 1-50 个),但直接用于知识蒸馏效果有限。模型反演可以从预训练教师模型生成合成数据,但缺少真实数据分布的引导。
现有痛点:
现有痛点¶
现有痛点:浓缩样本信息量有限,直接用于 KD 效果差
核心矛盾¶
核心矛盾:MI 生成的数据可能偏离真实分布(out-of-distribution)
解决思路¶
解决思路:简单混合浓缩+MI数据不能改善性能——存在域差距
核心矛盾:浓缩数据有分布信息但量太少;MI 可以生成大量数据但可能偏离分布。如何让两者互补?
切入角度:用浓缩样本作为"原型"引导 MI 生成分布一致的合成数据——通过特征对齐的条件判别器让生成器产出与浓缩数据类似的语义特征。
核心 idea:浓缩样本引导的模型反演——用条件判别器在教师模型的倒数第二层对齐合成数据和浓缩数据的特征分布。
方法详解¶
整体框架¶
教师模型已预训练 + 浓缩数据可用。生成器通过 MI 目标产生合成样本,同时一个特征判别器区分合成特征和浓缩数据特征,生成器需要"骗过"判别器。最终学生在合成+浓缩数据的混合集上蒸馏。
关键设计¶
-
特征对齐机制:
- 功能:让 MI 生成的数据在教师特征空间中与浓缩数据对齐
- 核心思路:\(\min \mathcal{L}_G = \mathcal{L}_{MI} + \mathcal{L}_{FA}\),判别器在教师倒数第二层特征上区分浓缩/合成
- 条件判别器:不仅判断真假,还判断类别——避免只做全局对齐而忽略类内一致性
- 设计动机:倒数第二层包含语义信息(而非早期层的低级结构特征),语义对齐确保生成数据类别正确
-
与任意 MI 方法的兼容性:
- 可插入 Fast、CMI、PRE-DFKD 等不同 MI 基线——只需在原始 MI 损失上加特征对齐损失
- 所有基线都获得一致提升,验证方法的通用性
-
训练-蒸馏一体化:
- 每个 epoch:先通过引导 MI 生成新合成批次,加入数据集;再从混合集随机采样做 KD
- 避免了先全部生成再蒸馏的分步策略——迭代改进质量
损失函数 / 训练策略¶
\(\theta_S^* = \arg\min \mathbb{E}_{\hat{x}}[D_{KL}(\hat{y}_S || \hat{y}_T)] + \mathbb{E}_x[D_{KL}(y_S || y_T)]\)。差异化数据增强防止判别器过拟合。
实验关键数据¶
主实验¶
| 方法 | CIFAR-100 R34→MBv2 | ImageNet-200 R34→MBv2 |
|---|---|---|
| Fast (MI) | 54.62% | 35.31% |
| Fast + CS (简单混合) | 56.57% | 40.68% |
| Fast* (Ours) | 63.29% | 43.08% |
| CMI | 61.90% | 35.55% |
| CMI* (Ours) | 70.21% | 45.83% |
异构教师-学生对(R34→MBv2)上提升最大,CMI* 在 CIFAR-100 上 +8.31%。
消融实验¶
- 即使每类仅 1 个浓缩样本也能带来提升
- 条件判别器(考虑类别信息)优于无条件判别器
- 不同浓缩方法(DSA、DM、MTT)都有效,MTT 最优
- t-SNE 可视化:引导后合成特征与真实数据分布更一致
关键发现¶
- 简单混合浓缩和 MI 数据几乎无效——域差距是关键障碍
- 异构模型对(结构差异大)受益最多——因为 MI 本身对这类对的性能最差
- 即使 1 spc 的浓缩数据也能有效引导 MI
亮点与洞察¶
- 浓缩数据作为"原型"引导 MI的思路很直觉——相当于给盲人(MI)一个参照物
- 与任意 MI 方法兼容的即插即用设计实用性强
- t-SNE 可视化直观展示了没有引导的 MI 生成数据在特征空间中的偏离
局限与展望¶
- 判别器可能在浓缩样本极少时过拟合
- 仅在分类任务上验证,检测/分割等任务有待扩展
- 未与最新的大规模浓缩方法比较
相关工作与启发¶
- vs CMI/Fast/PRE-DFKD: 本方法是它们的即插即用增强
- vs 少样本 KD: FSKD、NetGraft 只用少量真实样本;本方法用浓缩+MI扩展效果更好
- vs DeepInversion: DeepInversion 用 BN 统计引导,本方法用浓缩数据引导——后者信息更丰富
评分¶
- 新颖性: ⭐⭐⭐⭐ 浓缩数据+MI 的结合思路新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 3个数据集+多种MI基线+多种教师-学生对+消融
- 写作质量: ⭐⭐⭐⭐ 动机清晰,可视化出色
- 价值: ⭐⭐⭐⭐ 实用的 KD 增强方法
相关论文¶
- [ICLR 2026] Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation
- [ACL 2025] Data Laundering: Artificially Boosting Benchmark Results through Knowledge Distillation
- [AAAI 2026] EEG-DLite: Dataset Distillation for Efficient Large EEG Model Training
- [AAAI 2026] Credal Ensemble Distillation for Uncertainty Quantification
- [ICLR 2026] AMiD: Knowledge Distillation for LLMs with α-mixture Assistant Distribution