Accelerating Diffusion Model Training under Minimal Budgets: A Condensation-Based Perspective¶

会议: CVPR 2026
arXiv: 2507.05914
代码: 待确认
领域: image_generation
关键词: dataset condensation, diffusion model, training acceleration, data-centric, efficient training

一句话总结¶

提出 D2C（Diffusion Dataset Condensation）——首个面向扩散模型的数据集压缩框架，通过"Select + Attach"两阶段流水线，在仅使用 ImageNet 0.8%–8% 数据的条件下实现 100–233× 的训练加速，同时保持高质量图像生成能力。

研究背景与动机¶

扩散模型训练代价高昂：当前扩散模型（DiT、SiT 等）通常需要数百万张图像和数百万迭代步才能训练出高质量模型，SiT-XL/2 在 ImageNet 上需要 7M 步、REPA 也需 4M 步，训练耗时数百 GPU·hours。
数据集压缩聚焦于判别任务：已有数据集蒸馏/压缩方法（如 SRe2L、RDED、Herding、K-Center）几乎全部面向分类等判别式任务设计，直接迁移到扩散模型训练时效果极差（RDED 在 DiT-L/2 上 FID 高达 166.2）。
判别特征≠生成特征：像素级蒸馏方法合成的图像偏向类别判别性特征，缺少对数据分布多样性和语义结构的保留，导致生成质量崩塌、收敛不稳定。
简单剪枝策略次优：随机采样或几何方法（K-Center、Herding）无法针对扩散模型的去噪特性进行难度感知选择，性能提升有限。
数据侧高效训练缺乏系统研究：已有高效训练工作（架构优化、注意力加速、表征对齐等）多在模型侧发力，从数据角度系统构建压缩子集用于扩散训练的路线尚属空白。
类别嵌入语义贫乏：C2I（类别到图像）合成中常用的从零学习类别嵌入缺少固有语义信息，限制了条件生成的表达力，特别是在数据极度受限时更为明显。

方法详解¶

整体框架¶

D2C（Diffusion Dataset Condensation）采用两阶段流水线：Select 阶段从大规模训练集中筛选出紧凑、多样且可学习的子集；Attach 阶段为子集中每张图像附加丰富的语义与视觉表征信息。最终在压缩后的增强数据集上从头训练扩散模型，结合去噪损失和表征对齐损失进行联合优化。

关键设计 1：Diffusion Difficulty Score + Interval Sampling（Select 阶段）¶

做什么：为每张训练图像计算"扩散难度分数"，然后在排序后的列表中进行等间隔采样。
核心思路：利用预训练扩散模型的类条件后验概率 \(p_\theta(\mathbf{c}|\mathbf{x})\) 对样本难度进行排序。通过贝叶斯公式简化，难度分数定义为负条件似然（即扩散去噪损失）：\(s_{\text{diff}}(\mathbf{x}) = -\mathbb{E}_{\epsilon,t}[\|\epsilon - \epsilon_\theta(\mathbf{x}_t, t, \mathbf{c})\|_2^2]\)。分数越高，样本对模型去噪越困难。在每个类别内按难度升序排列后，以固定间隔 \(k\) 采样，兼顾简单样本的可学习性和困难样本的多样性。
设计动机：仅选最简单样本（Min）虽收敛快但多样性不足，仅选最难样本（Max）噪声大难优化；等间隔采样实现难度分布的均匀覆盖，在 0.8% 数据预算下 \(k=96\)、4% 预算下 \(k=16\) 取得最优。

关键设计 2：Dual Conditional Embedding（DC-Embedding，Attach 阶段·语义信息）¶

做什么：将预训练文本编码器（T5-encoder）生成的类别文本描述嵌入与可学习类别嵌入融合，作为扩散模型的条件输入。
核心思路：对每个类别生成描述性 prompt（如"a photo of a cat"），经文本编码器提取文本嵌入 \(t_c\) 和文本掩码 \(t_{\text{mask}}\)，再通过 1D 卷积 + 残差 MLP 与可学习类别嵌入 \(e_c\) 融合：\(y_{\text{text}} = \text{MLP}(\tilde{t}_c) + \tilde{t}_c + e_c\)。文本嵌入预计算存盘，训练时直接加载。
设计动机：从零学习的类别嵌入在数据受限时语义信息不足；引入预训练文本编码器的丰富语义（尤其类间区分能力）能显著改善条件生成质量，同时保留可学习嵌入的灵活性。

关键设计 3：Visual Information Injection（Attach 阶段·视觉信息）¶

做什么：用预训练视觉编码器（DINOv2）为每张选中图像提取实例级视觉表征，存盘后在训练时通过表征对齐损失注入扩散模型。
核心思路：DINOv2 提取每张图像的 patch 级语义特征 \(y_{\text{vis}} \in \mathbb{R}^{N \times d}\)，截取前 \(h\) 个 token 作为紧凑表征。训练时，从扩散模型中间层取出 token 特征 \(\{h_i\}\)，经投影头映射后与视觉表征计算余弦对齐损失：\(\mathcal{L}_{\text{proj}} = -\frac{1}{h}\sum_i \langle \frac{\phi(h_i)}{\|\phi(h_i)\|}, \frac{v_i}{\|v_i\|} \rangle\)。
设计动机：语义嵌入主要提供类间结构区分，但类内多样性（纹理、姿态等）需要实例级视觉信息才能捕获；借鉴 REPA 的表征对齐策略，为扩散模型注入空间一致性先验，在极小数据集上尤其关键。

损失函数¶

总训练目标由两部分组成：

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{diff}} + \lambda \cdot \mathcal{L}_{\text{proj}}\]

去噪损失 \(\mathcal{L}_{\text{diff}}\)：标准扩散模型噪声预测 MSE，条件为类别标签 \(y\) 和文本信息 \(y_{\text{text}}\)
表征对齐损失 \(\mathcal{L}_{\text{proj}}\)：扩散模型中间层 token 与 DINOv2 视觉表征的余弦相似度对齐
平衡权重 \(\lambda = 0.5\)

实验¶

表 1：ImageNet 256×256 不同数据预算下 gFID-50K 对比（CFG=1.5）¶

数据预算	迭代步数	DiT-L/2 Random	DiT-L/2 D2C	SiT-L/2 Random	SiT-L/2 D2C
0.8% (10K)	100k	35.86	4.20	4.35	3.98
0.8% (10K)	300k	4.19	4.13	4.33	3.98
4.0% (50K)	100k	36.78	14.81	31.13	11.21
4.0% (50K)	300k	11.55	5.99	14.18	5.66
8.0% (100K)	100k	41.02	22.55	36.64	15.01
8.0% (100K)	300k	11.49	6.49	12.56	5.65

D2C 在所有预算和架构设置下均大幅优于 Random、K-Center、Herding 等基线。尤其在 0.8% 预算下，D2C 仅需 100k 步即可达到 Random 300k 步的水平。

表 2：与 SRe2L / RDED 的对比（0.8% 数据，DiT-L/2）¶

方法	gFID↓	sFID↓	IS↑	Precision↑
RDED	166.2	60.1	10.8	0.09
SRe2L	104.2	20.2	14.1	0.20
D2C	4.2	11.0	283.6	0.72

面向判别任务设计的压缩方法在扩散训练中彻底失效，FID 比 D2C 高出 1–2 个数量级。

核心加速结果¶

使用 SiT-XL/2，D2C 在仅 0.8% 数据（10K 张）、40k 步时即达 FID 4.3，对比 REPA（4M 步）加速 100×、对比 vanilla SiT（7M 步）加速 233×。在 4% 数据（50K 张）+ CFG=1.5 下，180k 步达到 FID 2.78。

消融实验亮点¶

Select 阶段：单独使用将 gFID 从 37.07 降至 14.96
Attach 阶段：DC-Embedding 单独加入降至 9.01，视觉表征单独加入降至 10.37，两者组合降至 7.62
间隔 \(k\) 的选择：最优 \(k\) 与数据预算大致成反比（10K→\(k\)=96，50K→\(k\)=16）
Wall-clock：Attach-only 模式仅需 7.4h（REPA 的 0.99%），完整流水线 9.5h（REPA 的 1.27%）

亮点¶

首创面向扩散模型的数据集压缩：填补了生成式任务数据集压缩的空白，揭示了判别式压缩方法不可直接迁移的关键发现。
极端压缩比下的强性能：0.8% 数据即可训练出 FID 3.98 的 SiT-L/2，证明扩散模型训练中存在巨大的数据冗余。
模块化设计清晰：Select 和 Attach 两阶段可独立使用，即使去掉 Select（仅 Attach）也能超越 REPA，灵活性强。
跨架构跨分辨率泛化：DiT/SiT × L/XL × 256/512 全面验证，结果一致。
实际加速显著：Wall-clock 端到端仅为 REPA 的 ~1%，具备真实落地意义。

局限性¶

依赖预训练模型：需要预训练扩散模型计算难度分数 + T5 编码器 + DINOv2 编码器，方法的独立性不够强，冷启动成本被隐藏。
仅验证 C2I 设置：主实验均为类别条件 ImageNet 生成，T2I（文本到图像）仅在附录简要提及，大规模 T2I 场景下的效果未充分验证。
间隔超参需调优：最优间隔 \(k\) 与数据预算相关且非平凡，需要额外实验确定。
分辨率上限：实验最高 512×512，对于当前主流的 1024+ 分辨率生成未做验证。
数据扩展性存疑：压缩比从 0.8% 到 8% 时性能差异缩小，更大数据量下方法的边际收益是否递减尚不明确。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统研究面向扩散模型的数据集压缩问题，Select+Attach 框架设计合理
实验充分度: ⭐⭐⭐⭐ — 多架构、多分辨率、多预算全面对比+详细消融，wall-clock 分析透明
写作质量: ⭐⭐⭐⭐ — 动机清晰、公式严谨、图表信息量大，结构易读
价值: ⭐⭐⭐⭐ — 实际加速 100×+ 极具工程意义，为数据-模型协同优化开辟新方向