CaO2: Rectifying Inconsistencies in Diffusion-Based Dataset Distillation¶

会议: ICCV 2025
arXiv: 2506.22637
代码: GitHub
领域: 图像生成 / 数据集蒸馏
关键词: 数据集蒸馏, 扩散模型, 条件一致性, 目标一致性, 隐空间优化

一句话总结¶

揭示了基于扩散模型的数据集蒸馏中存在的"目标不一致"和"条件不一致"两个关键问题，提出两阶段框架CaO2：第一阶段通过分类器引导的样本选择缓解目标不一致，第二阶段通过隐空间优化最大化条件似然缓解条件不一致，在ImageNet上平均提升2.3%。

研究背景与动机¶

数据集蒸馏旨在构建一个紧凑的代理数据集，使在其上训练的模型能达到接近全量数据的性能。传统方法基于匹配优化（梯度匹配、特征匹配、轨迹匹配），但难以扩展到大规模高分辨率数据集。

近年来，基于扩散模型的蒸馏方法（如Minimax Diffusion、D4M）利用预训练扩散模型作为强大的分布学习器，生成代表性样本替代原始数据。然而作者发现这些方法忽略了评估过程，导致两个严重的不一致：

目标不一致 (Objective Inconsistency, OI): 蒸馏阶段优化的是生成模型的目标（图像逼真度），而评估阶段使用的是分类目标。扩散模型生成的图像虽逼真，但不一定具有判别性。

条件不一致 (Condition Inconsistency, CI): 扩散模型在实际中训练不完美，给定类别条件 \(c_i\) 生成的图像 \(\mathbf{x}_0^i\) 在其他类别条件下也有非零似然，即 \(p_\theta(\mathbf{x}_0^i | c_j) > 0, j \neq i\)，导致图像-标签配对质量不佳。

方法详解¶

整体框架¶

CaO2是一个两阶段框架：第一阶段生成图像池并通过轻量分类器筛选判别性强的样本（缓解OI），第二阶段在隐空间中优化选中样本的latent表示以最大化条件似然（缓解CI）。整个流程不需要训练扩散模型主干网络，仅需单张A6000 GPU。

关键设计¶

目标引导的样本选择 (Objective-guided Sample Selection): 对每个类别，先用预训练扩散模型生成 \(m \times \text{IPC}\) 张图像（\(m\) 为扩展因子，通常2-4即可），再用轻量预训练分类器（如ResNet-18）获取每张图像的预测概率。筛选流程：
- 仅保留被正确分类为条件类别的样本
- 根据任务难度选择样本：低IPC设定下选高置信度样本（简单样本），高IPC设定下选低置信度样本（困难样本）
- 不足部分从剩余图像中随机补充
条件感知的隐空间优化 (Condition-aware Latent Optimization): 固定扩散模型参数，对选中的图像隐变量进行梯度优化，使其向条件似然更高的区域移动。优化目标为： \(\min_{\mathbf{x}} \mathbb{E}_{t,\varepsilon}\left[\|\epsilon_\theta(\mathbf{x}_t, \hat{\mathbf{c}}, t) - \varepsilon\|_2^2 + \lambda\|\epsilon_\theta(\mathbf{x}_t, \hat{\mathbf{c}}, t) - \varepsilon\|_\infty\right]\) 其中 \(\lambda=10\) 控制正则化强度，\(\|\cdot\|_\infty\) 项防止局部区域过度偏离。时间步 \(t\) 从 \([1, \hat{T}]\) 采样（\(\hat{T} \ll T\)），确保隐变量只受到适度扰动。每张图像优化100次迭代。
任务导向的变体 (Task-oriented Variation):
- 根据分类任务的验证精度判断难度，选择不同的优化条件 \(\hat{\mathbf{c}}\)
- 简单任务（易区分类别）：使用真实类别标签 \(c\) 作为条件
- 困难任务（难区分类别）：使用无条件标签 \(\phi\) （分类器自由引导），让条件信息嵌入图像隐变量本身 \(\hat{\mathbf{c}} = c \cdot \mathbb{1}(c \in \mathbb{C}_e) + \phi \cdot \mathbb{1}(c \in \mathbb{C}_h)\)
扩展到MAR (Masked Autoregressive Model): 方法不限于扩散模型，也可应用于MAR等自回归生成模型。主要差异：用随机mask替代加噪操作，设计零标签嵌入替代分类器自由引导嵌入。

损失函数 / 训练策略¶

使用预训练DiT（256×256分辨率）作为骨干，50步去噪采样
Adam优化器，学习率0.0006
每张图像优化100次迭代，固定输入噪声
单张RTX A6000即可完成全部实验
样本选择阶段扩展因子 \(m=2\) 或 \(m=4\) 即足够

实验关键数据¶

主实验¶

数据集	IPC	SRe2L	Minimax	RDED	CaO2 (本文)	提升
ImageWoof (ResNet-18)	10	20.2	40.1	38.5	45.6	+5.5
ImageWoof (ResNet-18)	50	23.3	67.0	68.5	68.9	+0.4
ImageNette (ResNet-18)	10	29.4	61.4	61.4	65.0	+3.6
ImageNette (ResNet-50)	50	71.2	77.1	78.0	82.7	+4.7
ImageNet-100 (ResNet-18)	50	27.0	63.9	61.6	68.0	+4.1
ImageNet-1K (ResNet-18)	10	21.3	44.3	42.0	46.1	+1.8
ImageNet-1K (ResNet-50)	10	28.4	49.7	43.6	53.0	+3.3

消融实验¶

OSS	CLO	ImageWoof IPC=10	ImageWoof IPC=50	ImageNette IPC=10	ImageNette IPC=50
✗	✗	38.7	66.1	61.4	—
✓	✗	42.3	67.5	63.2	—
✗	✓	41.8	67.2	62.8	—
✓	✓	45.6	68.9	65.0	—

关键发现¶

两个组件（OSS和CLO）各自独立贡献相当，组合使用效果更优
在低IPC设定下提升更加显著（每张图对数据集质量影响更大）
ImageNette的平均提升（4.3%）大于ImageWoof（1.6%），说明多样性维护更容易见效
方法独立于评估模型——同一蒸馏数据集可跨ResNet-18/50/101使用
扩展到MAR后同样有效，验证了框架的通用性

亮点与洞察¶

问题定义精准：将扩散蒸馏的问题归结为两种可量化的"不一致"，定义清晰、形式化严谨
极其高效：不需要训练/微调任何生成模型，仅对隐变量做轻量优化，单GPU即可完成1000类ImageNet的蒸馏
即插即用：可作为现有扩散蒸馏方法的后处理模块，也可直接用于DiT随机采样的图像

局限与展望¶

样本选择依赖预训练分类器的质量，分类器本身的偏差可能传递到蒸馏集
隐空间优化可能导致视觉质量轻微下降（虽然判别性提高）
在超大IPC设定下优势减小
条件优化策略（简单/困难类别区分）需要额外的验证精度信息

评分¶

新颖性: ⭐⭐⭐⭐ 问题分析深刻，两个不一致的定义令人信服
实验充分度: ⭐⭐⭐⭐ 多数据集、多模型、多IPC的系统实验
写作质量: ⭐⭐⭐⭐⭐ 形式化定义清晰，问题-方案对应关系明确
价值: ⭐⭐⭐⭐ 对扩散蒸馏领域有方法论指导意义