D2C: Accelerating Diffusion Model Training under Minimal Budgets via Condensation¶

会议: CVPR 2026
arXiv: 2507.05914
代码: 无（但方法完全可复现）
领域: 图像生成 / 高效训练 / 数据集蒸馏
关键词: 扩散模型训练, 数据集压缩, 难度评分, 区间采样, REPA加速

一句话总结¶

首次将数据集压缩(Dataset Condensation)应用于扩散模型训练，提出D2C两阶段框架——Select阶段用扩散难度分数+区间采样选出紧凑子集、Attach阶段为每个样本附加文本和视觉表示——仅用0.8% ImageNet(10K图像)在40K步即达FID 4.3,比REPA快100×、比vanilla SiT快233×。

背景与动机¶

扩散模型训练极其耗资源——SiT-XL/2需700万步在128万图像上训练。REPA等方法从模型侧优化(表示对齐)，但数据侧减少训练集的可能性未被探索。数据集压缩(DC)在判别式模型上研究成熟，但直接将已有DC方法(SRe2L/RDED)用于扩散训练导致崩溃——因为DC方法优化类别判别特征而非真实图像分布，生成的合成图像结构和语义保真度差。

核心问题¶

能否通过数据集压缩将训练数据减少到原来的0.8-8%,同时保持扩散模型的生成质量和大幅加快训练收敛?

方法详解¶

整体框架¶

两阶段：(1) Select：用预训练扩散模型计算每个样本的去噪难度分数\(s_{diff}(x) = -p_\theta(x|c) \propto -\mathbb{E}[\|\epsilon - \epsilon_\theta(x_t, t, c)\|^2]\)，按难度排序后用间隔\(k\)均匀采样，平衡易学样本和困难样本的多样性。(2) Attach：为选中样本附加两类信息——DC-Embedding（T5文本嵌入+可学习类别嵌入的残差融合）和Visual Information（DINOv2 patch特征用作REPA式对齐目标）。

关键设计¶

扩散难度分数：\(s_{diff}(x)\)等于样本在预训练扩散模型上的平均去噪损失。直觉：高损失=模型难预测=样本复杂/模糊。通过Bayesian推导证明，\(p_\theta(c|x) \propto p_\theta(x|c)\)，因此去噪损失直接反映样本属于某类的置信度。关键发现：最易(Min)和最难(Max)样本都不好——Min太简单缺多样性，Max太嘈杂无法学习。中等难度的分布discrepancy最小（U型曲线,Fig.8 Right）。
区间采样(Interval Sampling)：在类内按难度排序后每隔\(k\)个取一个。\(k\)与数据量正相关——10K子集用\(k=96\)，50K用\(k=16\)。这天然覆盖了从易到中难的样本范围，同时避免极端困难样本。比"仅取中间"(Medium)性能更好——因为完全跳过容易样本会丧失基础分布覆盖。
双条件嵌入(DC-Embedding)：T5编码器将类名("a photo of a cat")编码为文本嵌入，经1D卷积+残差MLP与可学习类别嵌入融合。比纯类别嵌入好(FID 9.01 vs 14.96)——因为文本嵌入天然编码了语义关系(相似品种的狗在T-SNE中自然聚类,Fig.9)。

损失函数 / 训练策略¶

\(\mathcal{L}_{total} = \mathcal{L}_{diff} + 0.5 \mathcal{L}_{proj}\)，\(\mathcal{L}_{diff}\)是标准去噪损失（以DC-Embedding为条件），\(\mathcal{L}_{proj}\)是DINOv2特征对齐（REPA式）。Adam lr=1e-4，8×A800/4090。10K子集训练仅需7.4小时（比REPA的750小时少101×）。

实验关键数据¶

ImageNet 256² (SiT-XL/2, CFG=1.5):

方法	数据量	训练步数	gFID-50K
Vanilla SiT	1.28M	7M	8.3
+ REPA	1.28M	4M	5.9
+ REPA-E	1.28M	235K	5.9
+ REG	1.28M	200K	5.0
D2C	10K (0.8%)	40K	4.3
D2C	50K (4%)	180K	2.78

SRe2L/RDED在扩散训练中完全崩溃(FID > 80)——证实判别式DC方法不适用于生成任务。

D2C在512²、CIFAR-10上也work：CIFAR-10 gFID 3.95 (random 9.72)。

消融实验要点¶

Select单独有效：仅选择(无Attach)从37.07降至14.96 FID
DC-Embedding贡献最大：Select+DC Emb=9.01，Select+Visual=10.37，Select+Both=7.62
所有视觉编码器都有帮助：DINOv2-L(7.62) > CLIP-L(8.59) > MoCov3-L(8.78) > MAE-L(9.23) >> 无(37.07)
最优\(k\)与数据量成比例：10K→k=96, 50K→k=16，约=数据量/类别数×比例
预训练scorer非必需：从头训练scorer(FID 4.9)也远超random(37.07)

亮点¶

233×加速是惊人的数字——意味着原本需要几周的训练可以在几小时内完成
首次将数据集压缩引入扩散训练——填补了一个明显的学术空白
扩散难度分数的信息论推导优雅——从\(p(c|x) \propto p(x|c)\)到去噪损失的等价性
区间采样比K-Center/Herding/random在扩散训练中都好——说明难度排序比几何/特征多样性更重要
极低的附加开销——Select仅2h，Attach预计算后存储在磁盘上

局限性 / 可改进方向¶

依赖预训练扩散模型做难度评分——冷启动场景需要额外一步
仅验证了C2I(类别到图像),T2I(文本到图像)仅有初步探索(Appendix G)
区间\(k\)需要手动选择——虽然有经验法则但不完全自动化
10K子集的类别覆盖(10/类)可能限制类别多样性
未与T2I的数据效率方法(如PixArt的数据策划)直接对比

与相关工作的对比¶

vs REPA (模型侧加速)：REPA加速但仍用全量数据(1.28M)。D2C仅用0.8%数据(10K)+REPA的视觉对齐,效果更好(4.3 vs 5.9)且快100×
vs SRe2L/RDED (判别式DC)：这些方法在扩散训练中完全失败(FID>80)——因为优化目标是判别特征而非像素分布
vs 数据剪枝 (Pruning then Reweighting)：近期Li et al.的方法也做数据选择但不做Attach阶段且仅在小规模验证
vs HoneyBee (CVPR'26 VLM数据)：HoneyBee研究VLM推理数据策划,D2C研究扩散训练数据策划——思路相似,领域不同

启发与关联¶

"扩散难度分数"概念可推广到其他生成模型的数据选择——如自回归模型、VAE
与ideas/image_generation/20260316_dit_compression_understanding.md相关——D2C从数据侧减少训练成本,该idea从模型侧压缩,二者正交
潜在idea: 将D2C的Select策略用于持续学习——当新数据到来时,仅选择最有信息量的样本来增量更新扩散模型

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将DC引入扩散训练,扩散难度分数+区间采样的组合是原创贡献
实验充分度: ⭐⭐⭐⭐⭐ 3种数据比例、2种分辨率、2种架构(DiT/SiT)、5种基线、详尽消融
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,理论推导与实验紧密配合,附录极其详尽
价值: ⭐⭐⭐⭐⭐ 233×加速+数据极端压缩——定义了扩散模型训练效率的新标杆