跳转至

Adaptive Discretization for Consistency Models

会议: NeurIPS 2025
arXiv: 2510.17266
代码: 无
领域: 图像生成 / 扩散模型 / 一致性模型
关键词: consistency model, discretization, adaptive training, Gauss-Newton, image generation

一句话总结

提出ADCM框架,将一致性模型(CM)的离散化步长选择形式化为约束优化问题,通过Gauss-Newton方法得到解析解,在局部一致性(可训练性)和全局一致性(稳定性)之间自适应平衡,以仅4%的额外计算开销实现显著的训练效率提升和FID改善。

背景与动机

一致性模型(CM)通过学习将轨迹上的相邻点映射到同一起点来实现快速采样。其核心挑战在于离散化步长的选择——步长决定了"相邻点"的间距。小步长让局部一致性容易学习但全局一致性差(局部→全局的误差累积),大步长直接优化全局一致性但训练困难(梯度信号模糊)。现有方法使用固定或启发式的离散化策略,无法在这两个矛盾目标之间找到最优平衡。

核心问题

如何自适应地选择一致性模型训练中的离散化步长,在可训练性(局部一致性)和稳定性(全局一致性)之间达到最优平衡?

方法详解

整体框架

将离散化步长选择建模为带约束的优化问题,通过Lagrangian松弛转化为无约束形式,用Gauss-Newton方法求得解析解。

关键设计

  1. 统一离散化框架:将局部一致性损失和全局一致性约束统一到Lagrangian目标中
  2. Gauss-Newton解析解:步长Δt*的解析公式为 \(\Delta t^* = \frac{\lambda}{1+\lambda} \cdot \frac{E[v^T(f_\theta(x_t) - x_0)]}{E[v^T v]}\),通过Jacobian-向量积(JVP)高效计算
  3. Lagrange乘子λ:控制局部vs全局一致性的平衡。λ大→偏向局部(更易训练),λ小→偏向全局(更稳定)
  4. 自适应损失函数:引入Pseudo-Huber距离度量作为加权函数,c=0.03最优
  5. 计算开销极低:仅~4%额外计算,因为JVP与反向传播成本相当

实验关键数据

数据集 ADCM FID ECM FID iCT FID 训练量
CIFAR-10 3.49 5.82 - 12.8M images
CIFAR-10 3.28 - 2.83 25.6M images
ImageNet 64×64 3.04 - - 51.2M images
  • 在不到25%训练预算时就能达到有竞争力的结果
  • 收敛速度显著快于其他CM方法
  • 可推广到Flow Matching无需手动调整

消融实验要点

  • λ(Lagrange乘子):平衡稳定性和有效性的关键
  • 自适应损失组件:加权函数和距离度量都重要
  • Pseudo-Huber vs 其他度量:c=0.03最优
  • 推广到Flow Matching:无需手动调整即可工作

亮点

  • 解析解的优雅性:将离散化步长选择从启发式调参变为有解析公式的优化问题
  • 极低计算开销:仅4%额外成本,几乎"免费"的改进
  • 训练效率大幅提升:<25%预算即可达到竞争性能,这对大规模训练意义重大
  • 理论-实践统一:Lagrangian框架既有理论优雅性,又有实际有效性
  • 可推广性:适用于Flow Matching等变体

局限性 / 可改进方向

  • 主要在图像生成任务上验证
  • FID 3.28虽好但仍落后于iCT的2.83(在同等训练量下)
  • λ的选择仍需一定调参

与相关工作的对比

  • vs CM/iCT/ECM:ADCM在训练效率上显著优于这些方法,同等预算下FID更低
  • vs 固定离散化策略:自适应方法在所有训练阶段都优于固定策略
  • vs 手动调参CM:ADCM自动找到最优离散化,无需人工试错

启发与关联

  • 将离散化选择作为优化问题的思路可能推广到其他迭代生成模型
  • Pseudo-Huber距离作为鲁棒度量在其他训练目标中可能也有用

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 解析解+极低开销的框架设计非常优雅
  • 实验充分度: ⭐⭐⭐⭐ CIFAR-10和ImageNet验证,消融充分
  • 写作质量: ⭐⭐⭐⭐ 理论推导和直觉解释平衡好
  • 价值: ⭐⭐⭐⭐⭐ 对一致性模型的训练效率有重要贡献