D2C: Accelerating Diffusion Model Training under Minimal Budgets via Condensation¶
会议: CVPR 2026
arXiv: 2507.05914
代码: 无(但方法完全可复现)
领域: 图像生成 / 高效训练 / 数据集蒸馏
关键词: 扩散模型训练, 数据集压缩, 难度评分, 区间采样, REPA加速
一句话总结¶
首次将数据集压缩(Dataset Condensation)应用于扩散模型训练,提出D2C两阶段框架——Select阶段用扩散难度分数+区间采样选出紧凑子集、Attach阶段为每个样本附加文本和视觉表示——仅用0.8% ImageNet(10K图像)在40K步即达FID 4.3,比REPA快100×、比vanilla SiT快233×。
背景与动机¶
扩散模型训练极其耗资源——SiT-XL/2需700万步在128万图像上训练。REPA等方法从模型侧优化(表示对齐),但数据侧减少训练集的可能性未被探索。数据集压缩(DC)在判别式模型上研究成熟,但直接将已有DC方法(SRe2L/RDED)用于扩散训练导致崩溃——因为DC方法优化类别判别特征而非真实图像分布,生成的合成图像结构和语义保真度差。
核心问题¶
能否通过数据集压缩将训练数据减少到原来的0.8-8%,同时保持扩散模型的生成质量和大幅加快训练收敛?
方法详解¶
整体框架¶
两阶段:(1) Select:用预训练扩散模型计算每个样本的去噪难度分数\(s_{diff}(x) = -p_\theta(x|c) \propto -\mathbb{E}[\|\epsilon - \epsilon_\theta(x_t, t, c)\|^2]\),按难度排序后用间隔\(k\)均匀采样,平衡易学样本和困难样本的多样性。(2) Attach:为选中样本附加两类信息——DC-Embedding(T5文本嵌入+可学习类别嵌入的残差融合)和Visual Information(DINOv2 patch特征用作REPA式对齐目标)。
关键设计¶
-
扩散难度分数:\(s_{diff}(x)\)等于样本在预训练扩散模型上的平均去噪损失。直觉:高损失=模型难预测=样本复杂/模糊。通过Bayesian推导证明,\(p_\theta(c|x) \propto p_\theta(x|c)\),因此去噪损失直接反映样本属于某类的置信度。关键发现:最易(Min)和最难(Max)样本都不好——Min太简单缺多样性,Max太嘈杂无法学习。中等难度的分布discrepancy最小(U型曲线,Fig.8 Right)。
-
区间采样(Interval Sampling):在类内按难度排序后每隔\(k\)个取一个。\(k\)与数据量正相关——10K子集用\(k=96\),50K用\(k=16\)。这天然覆盖了从易到中难的样本范围,同时避免极端困难样本。比"仅取中间"(Medium)性能更好——因为完全跳过容易样本会丧失基础分布覆盖。
-
双条件嵌入(DC-Embedding):T5编码器将类名("a photo of a cat")编码为文本嵌入,经1D卷积+残差MLP与可学习类别嵌入融合。比纯类别嵌入好(FID 9.01 vs 14.96)——因为文本嵌入天然编码了语义关系(相似品种的狗在T-SNE中自然聚类,Fig.9)。
损失函数 / 训练策略¶
\(\mathcal{L}_{total} = \mathcal{L}_{diff} + 0.5 \mathcal{L}_{proj}\),\(\mathcal{L}_{diff}\)是标准去噪损失(以DC-Embedding为条件),\(\mathcal{L}_{proj}\)是DINOv2特征对齐(REPA式)。Adam lr=1e-4,8×A800/4090。10K子集训练仅需7.4小时(比REPA的750小时少101×)。
实验关键数据¶
ImageNet 256² (SiT-XL/2, CFG=1.5):
| 方法 | 数据量 | 训练步数 | gFID-50K |
|---|---|---|---|
| Vanilla SiT | 1.28M | 7M | 8.3 |
| + REPA | 1.28M | 4M | 5.9 |
| + REPA-E | 1.28M | 235K | 5.9 |
| + REG | 1.28M | 200K | 5.0 |
| D2C | 10K (0.8%) | 40K | 4.3 |
| D2C | 50K (4%) | 180K | 2.78 |
SRe2L/RDED在扩散训练中完全崩溃(FID > 80)——证实判别式DC方法不适用于生成任务。
D2C在512²、CIFAR-10上也work:CIFAR-10 gFID 3.95 (random 9.72)。
消融实验要点¶
- Select单独有效:仅选择(无Attach)从37.07降至14.96 FID
- DC-Embedding贡献最大:Select+DC Emb=9.01,Select+Visual=10.37,Select+Both=7.62
- 所有视觉编码器都有帮助:DINOv2-L(7.62) > CLIP-L(8.59) > MoCov3-L(8.78) > MAE-L(9.23) >> 无(37.07)
- 最优\(k\)与数据量成比例:10K→k=96, 50K→k=16,约=数据量/类别数×比例
- 预训练scorer非必需:从头训练scorer(FID 4.9)也远超random(37.07)
亮点¶
- 233×加速是惊人的数字——意味着原本需要几周的训练可以在几小时内完成
- 首次将数据集压缩引入扩散训练——填补了一个明显的学术空白
- 扩散难度分数的信息论推导优雅——从\(p(c|x) \propto p(x|c)\)到去噪损失的等价性
- 区间采样比K-Center/Herding/random在扩散训练中都好——说明难度排序比几何/特征多样性更重要
- 极低的附加开销——Select仅2h,Attach预计算后存储在磁盘上
局限性 / 可改进方向¶
- 依赖预训练扩散模型做难度评分——冷启动场景需要额外一步
- 仅验证了C2I(类别到图像),T2I(文本到图像)仅有初步探索(Appendix G)
- 区间\(k\)需要手动选择——虽然有经验法则但不完全自动化
- 10K子集的类别覆盖(10/类)可能限制类别多样性
- 未与T2I的数据效率方法(如PixArt的数据策划)直接对比
与相关工作的对比¶
- vs REPA (模型侧加速):REPA加速但仍用全量数据(1.28M)。D2C仅用0.8%数据(10K)+REPA的视觉对齐,效果更好(4.3 vs 5.9)且快100×
- vs SRe2L/RDED (判别式DC):这些方法在扩散训练中完全失败(FID>80)——因为优化目标是判别特征而非像素分布
- vs 数据剪枝 (Pruning then Reweighting):近期Li et al.的方法也做数据选择但不做Attach阶段且仅在小规模验证
- vs HoneyBee (CVPR'26 VLM数据):HoneyBee研究VLM推理数据策划,D2C研究扩散训练数据策划——思路相似,领域不同
启发与关联¶
- "扩散难度分数"概念可推广到其他生成模型的数据选择——如自回归模型、VAE
- 与
ideas/image_generation/20260316_dit_compression_understanding.md相关——D2C从数据侧减少训练成本,该idea从模型侧压缩,二者正交 - 潜在idea: 将D2C的Select策略用于持续学习——当新数据到来时,仅选择最有信息量的样本来增量更新扩散模型
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将DC引入扩散训练,扩散难度分数+区间采样的组合是原创贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 3种数据比例、2种分辨率、2种架构(DiT/SiT)、5种基线、详尽消融
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,理论推导与实验紧密配合,附录极其详尽
- 价值: ⭐⭐⭐⭐⭐ 233×加速+数据极端压缩——定义了扩散模型训练效率的新标杆