Dataset Distillation with Neural Characteristic Function: A Minmax Perspective¶
会议: CVPR 2025
arXiv: 2502.20653
代码: 无
领域: 模型压缩
关键词: 数据集蒸馏、特征函数、分布匹配、对抗优化、复平面
一句话总结¶
提出NCFM方法,通过在复平面上用神经网络参数化的特征函数差异(NCFD)作为分布距离度量,将数据集蒸馏重构为minmax对抗优化问题,同时对齐相位(真实性)和幅值(多样性)信息,在ImageNet子集上最高提升20.5%,且GPU内存降低300倍以上。
研究背景与动机¶
领域现状:分布匹配(DM)类数据集蒸馏方法因计算效率好而流行。现有DM方法主要用MSE做逐点特征匹配,或用MMD做矩匹配。
现有痛点:MSE在欧几里得空间做逐点比较,无法捕获高维流形的语义结构;MMD理论上需要在RKHS中取supremum,但实践中多数方法直接在特征空间对齐一阶矩,不满足MMD的理论要求。矩相等不等价于分布相等,导致合成数据质量受限。
核心矛盾:现有分布距离度量要么不够全面(MSE逐点、MMD对齐矩),要么是固定度量无法自适应调整,无法准确捕获真实数据与合成数据的分布差异。
本文目标 设计一个理论完备且可自适应优化的分布距离度量,使合成数据在真实性和多样性之间取得平衡。
切入角度:特征函数(Characteristic Function)是概率密度函数的傅里叶变换,与累积分布函数一一对应,能完整刻画分布信息。将CF引入分布匹配,并用对抗框架让度量自适应学习。
核心 idea:用神经网络参数化特征函数的频率采样策略,通过minmax优化自适应学习最能区分真实/合成分布的度量,同时优化合成数据最小化该度量。
方法详解¶
整体框架¶
输入真实数据和合成数据,经过特征提取器\(f\)映射到潜空间,计算两者在复平面上的特征函数差异NCFD。采样网络\(\psi\)通过最大化NCFD学习最优频率采样分布,合成数据\(\tilde{\mathcal{D}}\)通过最小化NCFD向真实分布靠拢。整个优化交替进行max步和min步。
关键设计¶
-
神经特征函数差异(NCFD):
- 功能:作为分布距离度量,完整捕获分布信息
- 核心思路:基于特征函数\(\Phi_{\bm{x}}(\bm{t}) = \mathbb{E}[e^{j\langle \bm{t}, \bm{x}\rangle}]\)定义CFD。通过Euler公式将CFD分解为幅值差异\(|\Phi_x(t) - \Phi_{\tilde{x}}(t)|^2\)(控制分布尺度/多样性)和相位差异\(1-\cos(a_x(t)-a_{\tilde{x}}(t))\)(控制数据中心/真实性)两个分量,用超参\(\alpha\)平衡二者。理论证明CFD满足距离度量的非负性、对称性和三角不等式
- 设计动机:CFD由唯一性定理保证与分布一一对应,比MMD的矩匹配更完备;相位-幅值分解使优化有明确的物理含义
-
对抗Minmax框架:
- 功能:自适应学习最优度量而非使用固定度量
- 核心思路:\(\min_{\tilde{\mathcal{D}}} \max_{\psi} \mathcal{L}(\tilde{\mathcal{D}}, \mathcal{D}, f, \psi)\)。采样网络\(\psi\)参数化频率参数\(t\)的采样分布(scale mixture of normals),max步优化\(\psi\)使NCFD最大化(找到最能区分两个分布的频率),min步优化合成数据使NCFD最小化。类似GAN的对抗训练思路
- 设计动机:固定的频率采样无法覆盖所有有意义的频率点,对抗学习让采样策略自动聚焦于分布差异最大的频率区域
-
Scale Mixture of Normals采样:
- 功能:灵活参数化频率参数的采样分布
- 核心思路:将频率参数\(t\)的分布定义为\(p(t) = \int \mathcal{N}(t|0, \Sigma) p_\Sigma(\Sigma) d\Sigma\),其中\(\Sigma\)的分布由网络\(\psi\)输出。这比单一高斯更灵活,能表达多尺度的频率采样策略。增加采样数量可由Lévy收敛定理保证经验CF逼近真实CF
- 设计动机:不同频率对分布差异的敏感度不同,混合正态能自适应地在重要频率处集中采样
损失函数 / 训练策略¶
NCFD损失包含幅值项和相位项,由\(\alpha\)平衡。训练中交替优化采样网络(max步)和合成数据(min步)。使用带实例归一化的ConvNet作为特征提取器,CIFAR用3层、Tiny-ImageNet用4层、ImageNet子集用5层。
实验关键数据¶
主实验¶
| 数据集 | IPC | NCFM | 之前SOTA | 提升 |
|---|---|---|---|---|
| CIFAR-10 | 1 | 49.5% | 46.9%(DATM) | +2.6% |
| CIFAR-10 | 10 | 71.8% | 66.5%(DSDM) | +5.3% |
| CIFAR-100 | 1 | 34.4% | 29.7%(DATM) | +4.7% |
| CIFAR-100 | 10 | 48.7% | 46.2%(DSDM) | +2.5% |
| ImageSquawk | 10 | 72.6% | 52.1%(RDED) | +20.5% |
| ImageMeow | 10 | 60.2% | 42.4%(RDED) | +17.8% |
消融实验¶
| 配置 | CIFAR-10 IPC=10 | CIFAR-100 IPC=10 | 说明 |
|---|---|---|---|
| NCFM (Full) | 71.8% | 48.7% | 完整模型 |
| w/o minmax | 68.3% | 44.9% | 去掉对抗优化,掉3.5%/3.8% |
| 仅幅值 (\(\alpha\)=1) | 69.5% | 46.2% | 缺相位信息 |
| 仅相位 (\(\alpha\)=0) | 70.1% | 47.3% | 缺幅值信息 |
| 用MMD替代NCFD | 66.5% | 46.2% | NCFD明显优于MMD |
关键发现¶
- 在高分辨率ImageNet子集上优势巨大(+20.5%),说明CF在高维空间捕获分布差异的能力远超MMD/MSE
- GPU内存降低300倍以上(vs DATM),因为NCFD是线性复杂度,而轨迹匹配需要存储大量中间状态
- 首次在单张2080Ti(2.3GB)上实现CIFAR-100的无损蒸馏(合成数据训练性能≈全数据集)
- 相位和幅值两个分量互补不可缺少,平衡参数\(\alpha\)=0.5附近最优
亮点与洞察¶
- 特征函数的相位-幅值分解:将分布距离分解为真实性(相位)和多样性(幅值)两个可解释分量,使蒸馏目标有了清晰的物理意义。这个分解思路可以迁移到任何需要平衡保真度和多样性的生成任务
- 对抗式度量学习:不是设计固定度量,而是让网络学习最佳度量,类似GAN的判别器思路用在了分布匹配上,简洁优雅
- 极致效率:300倍内存压缩+20倍速度提升,使数据集蒸馏真正可以在消费级GPU上运行,打破了该领域的算力门槛
局限与展望¶
- 使用ConvNet with InstanceNorm作为特征提取器,与实际应用中常用的BatchNorm网络存在差距
- 在Tiny-ImageNet(64×64)上的优势不如CIFAR和ImageNet子集明显
- 对抗训练的稳定性需要仔细调节,max步和min步的比例可能影响收敛
- 缺少在大规模ImageNet-1K上的验证
- Scale mixture of normals的假设是否是最优的采样分布族值得探索
相关工作与启发¶
- vs DM/MMD方法: DM仅对齐一阶矩,NCFM通过CF完整对齐分布,理论保证更强,性能提升5-20%
- vs DATM(轨迹匹配): DATM需要存储专家轨迹,内存开销巨大;NCFM不需要轨迹,效率高300倍且性能更好
- vs GAN: 借鉴了GAN的对抗训练思路,但判别器被简化为轻量采样网络,更稳定
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将特征函数引入数据集蒸馏,理论优雅且实用
- 实验充分度: ⭐⭐⭐⭐ 多数据集全面对比,消融充分,但缺ImageNet-1K
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,从MMD的不足自然过渡到CF,可读性佳
- 价值: ⭐⭐⭐⭐⭐ 性能+效率双提升,消费级GPU可用,实际应用价值极高
相关论文¶
- [ICCV 2025] Dataset Distillation via the Wasserstein Metric
- [CVPR 2025] Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios
- [CVPR 2025] Enhancing Dataset Distillation via Non-Critical Region Refinement
- [CVPR 2025] Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation
- [CVPR 2025] DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation