跳转至

CaO2: Rectifying Inconsistencies in Diffusion-Based Dataset Distillation

会议: ICCV 2025
arXiv: 2506.22637
代码: GitHub
领域: 图像生成 / 数据集蒸馏
关键词: 数据集蒸馏, 扩散模型, 条件一致性, 目标一致性, 隐空间优化

一句话总结

揭示了基于扩散模型的数据集蒸馏中存在的"目标不一致"和"条件不一致"两个关键问题,提出两阶段框架CaO2:第一阶段通过分类器引导的样本选择缓解目标不一致,第二阶段通过隐空间优化最大化条件似然缓解条件不一致,在ImageNet上平均提升2.3%。

研究背景与动机

数据集蒸馏旨在构建一个紧凑的代理数据集,使在其上训练的模型能达到接近全量数据的性能。传统方法基于匹配优化(梯度匹配、特征匹配、轨迹匹配),但难以扩展到大规模高分辨率数据集。

近年来,基于扩散模型的蒸馏方法(如Minimax Diffusion、D4M)利用预训练扩散模型作为强大的分布学习器,生成代表性样本替代原始数据。然而作者发现这些方法忽略了评估过程,导致两个严重的不一致:

目标不一致 (Objective Inconsistency, OI): 蒸馏阶段优化的是生成模型的目标(图像逼真度),而评估阶段使用的是分类目标。扩散模型生成的图像虽逼真,但不一定具有判别性。

条件不一致 (Condition Inconsistency, CI): 扩散模型在实际中训练不完美,给定类别条件 \(c_i\) 生成的图像 \(\mathbf{x}_0^i\) 在其他类别条件下也有非零似然,即 \(p_\theta(\mathbf{x}_0^i | c_j) > 0, j \neq i\),导致图像-标签配对质量不佳。

方法详解

整体框架

CaO2是一个两阶段框架:第一阶段生成图像池并通过轻量分类器筛选判别性强的样本(缓解OI),第二阶段在隐空间中优化选中样本的latent表示以最大化条件似然(缓解CI)。整个流程不需要训练扩散模型主干网络,仅需单张A6000 GPU。

关键设计

  1. 目标引导的样本选择 (Objective-guided Sample Selection): 对每个类别,先用预训练扩散模型生成 \(m \times \text{IPC}\) 张图像(\(m\) 为扩展因子,通常2-4即可),再用轻量预训练分类器(如ResNet-18)获取每张图像的预测概率。筛选流程:

    • 仅保留被正确分类为条件类别的样本
    • 根据任务难度选择样本:低IPC设定下选高置信度样本(简单样本),高IPC设定下选低置信度样本(困难样本)
    • 不足部分从剩余图像中随机补充
  2. 条件感知的隐空间优化 (Condition-aware Latent Optimization): 固定扩散模型参数,对选中的图像隐变量进行梯度优化,使其向条件似然更高的区域移动。优化目标为: \(\min_{\mathbf{x}} \mathbb{E}_{t,\varepsilon}\left[\|\epsilon_\theta(\mathbf{x}_t, \hat{\mathbf{c}}, t) - \varepsilon\|_2^2 + \lambda\|\epsilon_\theta(\mathbf{x}_t, \hat{\mathbf{c}}, t) - \varepsilon\|_\infty\right]\) 其中 \(\lambda=10\) 控制正则化强度,\(\|\cdot\|_\infty\) 项防止局部区域过度偏离。时间步 \(t\)\([1, \hat{T}]\) 采样(\(\hat{T} \ll T\)),确保隐变量只受到适度扰动。每张图像优化100次迭代。

  3. 任务导向的变体 (Task-oriented Variation):

    • 根据分类任务的验证精度判断难度,选择不同的优化条件 \(\hat{\mathbf{c}}\)
    • 简单任务(易区分类别):使用真实类别标签 \(c\) 作为条件
    • 困难任务(难区分类别):使用无条件标签 \(\phi\) (分类器自由引导),让条件信息嵌入图像隐变量本身 \(\hat{\mathbf{c}} = c \cdot \mathbb{1}(c \in \mathbb{C}_e) + \phi \cdot \mathbb{1}(c \in \mathbb{C}_h)\)
  4. 扩展到MAR (Masked Autoregressive Model): 方法不限于扩散模型,也可应用于MAR等自回归生成模型。主要差异:用随机mask替代加噪操作,设计零标签嵌入替代分类器自由引导嵌入。

损失函数 / 训练策略

  • 使用预训练DiT(256×256分辨率)作为骨干,50步去噪采样
  • Adam优化器,学习率0.0006
  • 每张图像优化100次迭代,固定输入噪声
  • 单张RTX A6000即可完成全部实验
  • 样本选择阶段扩展因子 \(m=2\)\(m=4\) 即足够

实验关键数据

主实验

数据集 IPC SRe2L Minimax RDED CaO2 (本文) 提升
ImageWoof (ResNet-18) 10 20.2 40.1 38.5 45.6 +5.5
ImageWoof (ResNet-18) 50 23.3 67.0 68.5 68.9 +0.4
ImageNette (ResNet-18) 10 29.4 61.4 61.4 65.0 +3.6
ImageNette (ResNet-50) 50 71.2 77.1 78.0 82.7 +4.7
ImageNet-100 (ResNet-18) 50 27.0 63.9 61.6 68.0 +4.1
ImageNet-1K (ResNet-18) 10 21.3 44.3 42.0 46.1 +1.8
ImageNet-1K (ResNet-50) 10 28.4 49.7 43.6 53.0 +3.3

消融实验

OSS CLO ImageWoof IPC=10 ImageWoof IPC=50 ImageNette IPC=10 ImageNette IPC=50
38.7 66.1 61.4
42.3 67.5 63.2
41.8 67.2 62.8
45.6 68.9 65.0

关键发现

  • 两个组件(OSS和CLO)各自独立贡献相当,组合使用效果更优
  • 在低IPC设定下提升更加显著(每张图对数据集质量影响更大)
  • ImageNette的平均提升(4.3%)大于ImageWoof(1.6%),说明多样性维护更容易见效
  • 方法独立于评估模型——同一蒸馏数据集可跨ResNet-18/50/101使用
  • 扩展到MAR后同样有效,验证了框架的通用性

亮点与洞察

  • 问题定义精准:将扩散蒸馏的问题归结为两种可量化的"不一致",定义清晰、形式化严谨
  • 极其高效:不需要训练/微调任何生成模型,仅对隐变量做轻量优化,单GPU即可完成1000类ImageNet的蒸馏
  • 即插即用:可作为现有扩散蒸馏方法的后处理模块,也可直接用于DiT随机采样的图像

局限与展望

  • 样本选择依赖预训练分类器的质量,分类器本身的偏差可能传递到蒸馏集
  • 隐空间优化可能导致视觉质量轻微下降(虽然判别性提高)
  • 在超大IPC设定下优势减小
  • 条件优化策略(简单/困难类别区分)需要额外的验证精度信息

相关工作与启发

  • 与Minimax Diffusion的区别:后者通过微调扩散模型提升生成代表性,而CaO2不修改模型参数
  • 与D4M的区别:D4M用原型学习聚类隐变量,仍然缺乏分类目标指导
  • 核心启发:生成模型的"好图"不等于分类的"好样本"——这个洞察对所有基于生成模型的数据增强策略都有启示意义

评分

  • 新颖性: ⭐⭐⭐⭐ 问题分析深刻,两个不一致的定义令人信服
  • 实验充分度: ⭐⭐⭐⭐ 多数据集、多模型、多IPC的系统实验
  • 写作质量: ⭐⭐⭐⭐⭐ 形式化定义清晰,问题-方案对应关系明确
  • 价值: ⭐⭐⭐⭐ 对扩散蒸馏领域有方法论指导意义

相关论文