When Data-Free Knowledge Distillation Meets Non-Transferable Teacher: Escaping Out-of-Distribution¶

会议: ICML 2025
arXiv: 2507.04119
代码: 无
领域: 模型压缩/知识蒸馏
关键词: 无数据知识蒸馏, 不可迁移教师, 分布外样本, 数据隐私, 模型压缩

一句话总结¶

本文研究了在教师模型为"不可迁移"（non-transferable）设计时无数据知识蒸馏面临的挑战——合成样本容易落入分布外区域导致蒸馏失败，提出了逃逸分布外区域（escaping OOD）的方法来实现有效蒸馏。

领域现状：领域现状**：无数据知识蒸馏（Data-Free KD）通过生成器合成训练数据来训练学生模型，无需访问原始训练数据，在数据隐私场景中很有价值。同时，不可迁移学习（Non-Transferable Learning）旨在保护模型的知识产权，使模型在授权域外性能下降。

现有痛点：当教师模型经过不可迁移训练时，其在分布外区域会给出误导性输出。传统无数据 KD 的生成器可能生成分布外样本，导致这些误导性知识被传递给学生模型。

核心矛盾：无数据KD需要用合成数据探索教师的知识，但不可迁移教师在分布外区域提供的是"毒药"而非"知识"。

本文目标：在教师模型具有不可迁移性时，如何进行有效的无数据知识蒸馏。

切入角度：将问题建模为"逃逸 OOD"——确保生成器合成的样本尽可能落在教师模型的可靠区域内。

核心 idea：通过检测和避免分布外区域，使无数据 KD 在不可迁移教师上也能生效。

分布外检测机制:
- 利用教师模型的输出特征（如置信度模式、特征统计量）来判断合成样本是否在分布内
- 不可迁移教师在 OOD 区域有特征性的输出模式（如过低置信度或随机输出）
- 设计动机：识别教师"不可信"的区域，避免从中学习
OOD 感知生成器训练:
- 修改生成器的目标函数，加入 OOD 惩罚项
- 引导生成器产生更接近分布内的合成样本
- 可能使用对比学习或特征匹配来约束生成分布
- 设计动机：从根源上减少 OOD 样本的生成
自适应蒸馏策略:
- 对不同置信度的教师输出赋予不同权重
- 高置信度输出更可能来自分布内，给予更高权重
- 设计动机：即使生成器不完美，仍能从可信输出中提取知识

方法	CIFAR-10	CIFAR-100	提升
标准 DFKD (正常教师)	基线高	基线高	-
标准 DFKD (不可迁移教师)	大幅下降	大幅下降	问题暴露
本文方法 (不可迁移教师)	恢复	恢复	有效缓解