跳转至

Adaptive Stochastic Coefficients for Accelerating Diffusion Sampling

会议: NeurIPS 2025
arXiv: 2510.23285
代码: GitHub
领域: 扩散模型 / 采样加速
关键词: diffusion sampling, SDE solver, ODE solver, adaptive noise injection, few-step generation

一句话总结

通过理论分析 ODE 和 SDE 求解器的互补弱点(ODE 积累不可消除的梯度误差,SDE 在少步时离散化误差放大),提出 AdaSDE——在每个去噪步引入可学习随机系数 \(\gamma_i\) 控制噪声注入强度,通过轻量蒸馏优化,在 5 NFE 下实现 CIFAR-10 FID 4.18、FFHQ FID 8.05 的 SOTA。

研究背景与动机

  1. 领域现状:扩散模型采样需要求解反向微分方程。主流方法分两类:ODE 求解器(DDIM、DPM-Solver 等)提供高效确定性采样但梯度误差不可消除;SDE 求解器注入随机性可修正梯度误差但需要大量步数(100-1000 NFE)。

  2. 现有痛点:(a) ODE 求解器在少步(<10 NFE)设置下,学习得分函数与真实得分的差异(梯度误差)沿确定性轨迹不可逆地积累,导致性能天花板;(b) SDE 求解器虽然能通过随机性修正梯度误差,但离散化误差随步长变大而放大,在少步时反而更差;(c) 混合方法如 Restart Sampling 仍需 50+ 步。

  3. 核心矛盾:ODE 的梯度误差和 SDE 的离散化误差在少步场景下都是问题——需要找到一个能同时利用 ODE 效率和 SDE 误差修正能力的方法。

  4. 本文要解决什么?

  5. SDE 能否在极少步数(<10 NFE)下实现高效采样?
  6. 如何自适应地控制随机性强度,在梯度误差修正和离散化误差之间找到最优平衡?

  7. 切入角度:理论分析表明 AdaSDE 的梯度误差界有一个收缩因子 \((1-\lambda(\gamma))\),严格小于 ODE 的梯度误差界(Theorem 3)。关键是 \(\gamma\) 需要自适应调整——每步不同的最优噪声强度。

  8. 核心 idea 一句话:在每个去噪步用可学习的 \(\gamma_i\) 控制"前向加噪+后向去噪"的幅度,通过轻量蒸馏优化 \(\gamma_i\),实现少步 SDE 采样超越 ODE。

方法详解

整体框架

AdaSDE 是一个单步 SDE 求解器。在每个去噪步 \([t+\Delta t, t]\) 中,执行两个子步:(1) 前向过程:从当前状态 \(x_{t+\Delta t}\) 注入 \(\gamma\)-控制的高斯噪声到达更高噪声水平 \(t+(1+\gamma)\Delta t\);(2) 后向过程:用 ODE 求解器从高噪声水平确定性地积分回目标时间 \(t\)\(\gamma_i\) 在每步不同,通过蒸馏优化。

关键设计

  1. ODE vs SDE 误差的统一理论分析
  2. 做什么:证明 AdaSDE 的梯度误差界严格小于 ODE。
  3. 核心思路:Theorem 1 给出 ODE 的误差界 = 梯度误差项(\(B \cdot \text{TV}\),累积)+ 离散化误差项(\(O(\Delta t^2)\))。Theorem 2 给出 AdaSDE 的误差界,梯度误差项乘以收缩因子 \((1-\lambda(\gamma)) < 1\),来自高斯卷积的平滑效应——噪声注入拉近了生成分布和真实分布。Theorem 3 严格证明 \(\mathcal{E}_{\text{grad}}^{\text{AdaSDE}} \leq \mathcal{E}_{\text{grad}}^{\text{ODE}}\)
  4. 设计动机:理论上证实了"适度加噪"能减少梯度误差,为自适应 \(\gamma\) 的引入提供理论基础。但 \(\gamma\) 太大会增加离散化误差,需要优化。

  5. 可学习的自适应随机系数 \(\gamma_i\)

  6. 做什么:每步学习一个标量 \(\gamma_i \in (0, 1)\),控制噪声注入强度。
  7. 核心思路:将 \(\gamma_i\) 参数化并通过蒸馏优化。关键观察:扩散轨迹跨求解器和数据集具有一致的低维几何结构。因此,\(\gamma_i\) 只需少量数据即可学习。
  8. 设计动机:不同去噪步的梯度误差和离散化误差比例不同——前期噪声大,梯度误差修正收益高;后期噪声小,过度加噪的离散化代价大。自适应 \(\gamma_i\) 在每步自动平衡。

  9. 过程监督蒸馏优化框架

  10. 做什么:通过监督中间步而非仅监督最终结果来优化 \(\gamma_i\)
  11. 核心思路:使用高步数 ODE 求解器(如 250 步 DDIM)生成参考轨迹,在每个中间步对齐 AdaSDE 的轨迹与参考轨迹。只需优化 \(\gamma\) 参数(标量/步),不需要训练神经网络。
  12. 设计动机:终端监督(只看最终结果)会使中间步的误差无法得到纠正;过程监督在每步提供反馈,确保整个轨迹接近参考轨迹。由于 \(\gamma\) 是轨迹几何的全局属性(低维),几百个样本就够了。

  13. 与现有求解器的即插即用组合

  14. 做什么:AdaSDE 的 \(\gamma\) 可以作为插件增强任何单步 ODE 求解器。
  15. 核心思路:将任何 ODE 步 \(x_t = \text{ODE}(x_{t+\Delta t})\) 替换为 \(x_t = \text{ODE}(\text{add\_noise}(x_{t+\Delta t}, \gamma_i))\),无需修改求解器内部逻辑。
  16. 设计动机:通用性——不同求解器(Euler、iPNDM、DPM-Solver 等)都可以受益于自适应噪声注入。

损失函数 / 训练策略

  • 蒸馏损失:\(\mathcal{L} = \sum_i \|x_t^{\text{AdaSDE}} - x_t^{\text{ref}}\|^2\)(中间步对齐)
  • 训练数据:仅需 ~500 个样本生成参考轨迹
  • 优化参数:仅 \(N\) 个标量 \(\gamma_i\)\(N\) = 步数),极轻量

实验关键数据

主实验:5 NFE

数据集 指标(FID↓) AdaSDE 之前SOTA (AMED) 改善
CIFAR-10 FID 4.18 7.14 1.7×
FFHQ 64×64 FID 8.05 14.85 1.8×
LSUN Bedroom FID 6.96 - -

消融实验:与不同基础求解器组合

基础求解器 原始 FID + AdaSDE FID 改善
Euler - 显著改善
iPNDM - 显著改善
DPM-Solver - 显著改善

AdaSDE 作为即插即用模块,提升了所有测试的基础求解器。

关键发现

  • \(\gamma\) 在不同步骤差异显著:前期步骤的最优 \(\gamma\) 较大(需要更多随机性修正梯度误差),后期步骤 \(\gamma\) 接近 0(避免离散化误差)——验证了自适应的必要性
  • 过程监督远优于终端监督:仅监督最终输出时,中间步轨迹会偏离,导致最终质量下降
  • 轨迹几何的一致性\(\gamma\) 在不同数据集上的最优值模式相似(都是前大后小),说明扩散轨迹的底层几何结构跨数据集一致
  • SDE 首次在极少步(5 NFE)下超越 ODE:打破了"少步 = 必须用 ODE"的常识

亮点与洞察

  • "为什么不能用 SDE 做少步采样?"的理论回答:离散化误差 \(O(\delta^{3/2})\) vs ODE 的 \(O(\delta^2)\)——但如果自适应控制 \(\gamma\) 使梯度误差修正收益 > 离散化代价,SDE 就能在少步时超越 ODE。这个洞察非常精准。
  • 极致简洁的优化目标:整个方法只优化 \(N\) 个标量参数(\(N\) = 步数,通常 5-10),是真正的"轻量蒸馏"——不需要训练额外网络,不需要大量数据。
  • 即插即用设计:任何 ODE 求解器 + AdaSDE = 更好的求解器。这种通用性使方法的实际影响力远超单一方法。

局限性 / 可改进方向

  • 仍需蒸馏步骤:虽然轻量,但需要预先生成参考轨迹,不是完全 training-free
  • 参考轨迹质量依赖:如果高步数 ODE 参考本身不够好,\(\gamma\) 的优化目标可能有偏
  • 像素空间 vs 隐空间:主要在像素空间验证(CIFAR-10、FFHQ、LSUN),隐空间扩散模型(Stable Diffusion)上的效果未验证
  • \(\gamma\) 的泛化:学得的 \(\gamma\) 是否跨不同 prompt/条件泛化?条件生成场景未讨论

相关工作与启发

  • vs DDIM / DPM-Solver (ODE 求解器):AdaSDE 通过自适应噪声注入修正了 ODE 不可消除的梯度误差,在相同步数下 FID 大幅更低
  • vs Restart Sampling (混合方法):Restart 需要 50+ 步,AdaSDE 在 5 步就超越——因为 AdaSDE 的 \(\gamma\) 是优化的而非固定的
  • vs AMED / EPD (蒸馏求解器):AMED 优化时间调度表,AdaSDE 优化噪声注入系数,两者正交可组合
  • 可迁移启示:自适应噪声注入的思路可能适用于任何迭代精炼过程——如 LLM 的迭代推理、蛋白质结构预测等

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次实现少步 SDE 超越 ODE,理论动机→方法设计→实验验证的逻辑链非常完整
  • 实验充分度: ⭐⭐⭐⭐ 多数据集+多求解器组合+消融全面,但缺少隐空间模型实验
  • 写作质量: ⭐⭐⭐⭐⭐ 理论分析清晰严谨,ODE vs SDE 的误差分析非常有启发性
  • 价值: ⭐⭐⭐⭐⭐ 5 NFE SOTA + 即插即用 + 极轻量优化,实际价值极高