Adaptive Discretization for Consistency Models¶

会议: NeurIPS 2025
arXiv: 2510.17266
代码: 无
领域: 图像生成 / 扩散模型 / 一致性模型
关键词: consistency model, discretization, adaptive training, Gauss-Newton, image generation

一句话总结¶

提出ADCM框架，将一致性模型(CM)的离散化步长选择形式化为约束优化问题，通过Gauss-Newton方法得到解析解，在局部一致性（可训练性）和全局一致性（稳定性）之间自适应平衡，以仅4%的额外计算开销实现显著的训练效率提升和FID改善。

背景与动机¶

一致性模型(CM)通过学习将轨迹上的相邻点映射到同一起点来实现快速采样。其核心挑战在于离散化步长的选择——步长决定了"相邻点"的间距。小步长让局部一致性容易学习但全局一致性差（局部→全局的误差累积），大步长直接优化全局一致性但训练困难（梯度信号模糊）。现有方法使用固定或启发式的离散化策略，无法在这两个矛盾目标之间找到最优平衡。

核心问题¶

如何自适应地选择一致性模型训练中的离散化步长，在可训练性（局部一致性）和稳定性（全局一致性）之间达到最优平衡？

方法详解¶

整体框架¶

将离散化步长选择建模为带约束的优化问题，通过Lagrangian松弛转化为无约束形式，用Gauss-Newton方法求得解析解。

关键设计¶

统一离散化框架：将局部一致性损失和全局一致性约束统一到Lagrangian目标中
Gauss-Newton解析解：步长Δt*的解析公式为 \(\Delta t^* = \frac{\lambda}{1+\lambda} \cdot \frac{E[v^T(f_\theta(x_t) - x_0)]}{E[v^T v]}\)，通过Jacobian-向量积(JVP)高效计算
Lagrange乘子λ：控制局部vs全局一致性的平衡。λ大→偏向局部（更易训练），λ小→偏向全局（更稳定）
自适应损失函数：引入Pseudo-Huber距离度量作为加权函数，c=0.03最优
计算开销极低：仅~4%额外计算，因为JVP与反向传播成本相当

实验关键数据¶

数据集	ADCM FID	ECM FID	iCT FID	训练量
CIFAR-10	3.49	5.82	-	12.8M images
CIFAR-10	3.28	-	2.83	25.6M images
ImageNet 64×64	3.04	-	-	51.2M images

在不到25%训练预算时就能达到有竞争力的结果
收敛速度显著快于其他CM方法
可推广到Flow Matching无需手动调整

消融实验要点¶

λ（Lagrange乘子）：平衡稳定性和有效性的关键
自适应损失组件：加权函数和距离度量都重要
Pseudo-Huber vs 其他度量：c=0.03最优
推广到Flow Matching：无需手动调整即可工作

亮点¶

解析解的优雅性：将离散化步长选择从启发式调参变为有解析公式的优化问题
极低计算开销：仅4%额外成本，几乎"免费"的改进
训练效率大幅提升：<25%预算即可达到竞争性能，这对大规模训练意义重大
理论-实践统一：Lagrangian框架既有理论优雅性，又有实际有效性
可推广性：适用于Flow Matching等变体

局限性 / 可改进方向¶

主要在图像生成任务上验证
FID 3.28虽好但仍落后于iCT的2.83（在同等训练量下）
λ的选择仍需一定调参

与相关工作的对比¶

vs CM/iCT/ECM：ADCM在训练效率上显著优于这些方法，同等预算下FID更低
vs 固定离散化策略：自适应方法在所有训练阶段都优于固定策略
vs 手动调参CM：ADCM自动找到最优离散化，无需人工试错

启发与关联¶

将离散化选择作为优化问题的思路可能推广到其他迭代生成模型
Pseudo-Huber距离作为鲁棒度量在其他训练目标中可能也有用

评分¶

新颖性: ⭐⭐⭐⭐⭐ 解析解+极低开销的框架设计非常优雅
实验充分度: ⭐⭐⭐⭐ CIFAR-10和ImageNet验证，消融充分
写作质量: ⭐⭐⭐⭐ 理论推导和直觉解释平衡好
价值: ⭐⭐⭐⭐⭐ 对一致性模型的训练效率有重要贡献