Adaptive Discretization for Consistency Models¶
会议: NeurIPS 2025
arXiv: 2510.17266
代码: 无
领域: 图像生成 / 扩散模型 / 一致性模型
关键词: consistency model, discretization, adaptive training, Gauss-Newton, image generation
一句话总结¶
提出ADCM框架,将一致性模型(CM)的离散化步长选择形式化为约束优化问题,通过Gauss-Newton方法得到解析解,在局部一致性(可训练性)和全局一致性(稳定性)之间自适应平衡,以仅4%的额外计算开销实现显著的训练效率提升和FID改善。
背景与动机¶
一致性模型(CM)通过学习将轨迹上的相邻点映射到同一起点来实现快速采样。其核心挑战在于离散化步长的选择——步长决定了"相邻点"的间距。小步长让局部一致性容易学习但全局一致性差(局部→全局的误差累积),大步长直接优化全局一致性但训练困难(梯度信号模糊)。现有方法使用固定或启发式的离散化策略,无法在这两个矛盾目标之间找到最优平衡。
核心问题¶
如何自适应地选择一致性模型训练中的离散化步长,在可训练性(局部一致性)和稳定性(全局一致性)之间达到最优平衡?
方法详解¶
整体框架¶
将离散化步长选择建模为带约束的优化问题,通过Lagrangian松弛转化为无约束形式,用Gauss-Newton方法求得解析解。
关键设计¶
- 统一离散化框架:将局部一致性损失和全局一致性约束统一到Lagrangian目标中
- Gauss-Newton解析解:步长Δt*的解析公式为 \(\Delta t^* = \frac{\lambda}{1+\lambda} \cdot \frac{E[v^T(f_\theta(x_t) - x_0)]}{E[v^T v]}\),通过Jacobian-向量积(JVP)高效计算
- Lagrange乘子λ:控制局部vs全局一致性的平衡。λ大→偏向局部(更易训练),λ小→偏向全局(更稳定)
- 自适应损失函数:引入Pseudo-Huber距离度量作为加权函数,c=0.03最优
- 计算开销极低:仅~4%额外计算,因为JVP与反向传播成本相当
实验关键数据¶
| 数据集 | ADCM FID | ECM FID | iCT FID | 训练量 |
|---|---|---|---|---|
| CIFAR-10 | 3.49 | 5.82 | - | 12.8M images |
| CIFAR-10 | 3.28 | - | 2.83 | 25.6M images |
| ImageNet 64×64 | 3.04 | - | - | 51.2M images |
- 在不到25%训练预算时就能达到有竞争力的结果
- 收敛速度显著快于其他CM方法
- 可推广到Flow Matching无需手动调整
消融实验要点¶
- λ(Lagrange乘子):平衡稳定性和有效性的关键
- 自适应损失组件:加权函数和距离度量都重要
- Pseudo-Huber vs 其他度量:c=0.03最优
- 推广到Flow Matching:无需手动调整即可工作
亮点¶
- 解析解的优雅性:将离散化步长选择从启发式调参变为有解析公式的优化问题
- 极低计算开销:仅4%额外成本,几乎"免费"的改进
- 训练效率大幅提升:<25%预算即可达到竞争性能,这对大规模训练意义重大
- 理论-实践统一:Lagrangian框架既有理论优雅性,又有实际有效性
- 可推广性:适用于Flow Matching等变体
局限性 / 可改进方向¶
- 主要在图像生成任务上验证
- FID 3.28虽好但仍落后于iCT的2.83(在同等训练量下)
- λ的选择仍需一定调参
与相关工作的对比¶
- vs CM/iCT/ECM:ADCM在训练效率上显著优于这些方法,同等预算下FID更低
- vs 固定离散化策略:自适应方法在所有训练阶段都优于固定策略
- vs 手动调参CM:ADCM自动找到最优离散化,无需人工试错
启发与关联¶
- 将离散化选择作为优化问题的思路可能推广到其他迭代生成模型
- Pseudo-Huber距离作为鲁棒度量在其他训练目标中可能也有用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 解析解+极低开销的框架设计非常优雅
- 实验充分度: ⭐⭐⭐⭐ CIFAR-10和ImageNet验证,消融充分
- 写作质量: ⭐⭐⭐⭐ 理论推导和直觉解释平衡好
- 价值: ⭐⭐⭐⭐⭐ 对一致性模型的训练效率有重要贡献