Adaptive Stochastic Coefficients for Accelerating Diffusion Sampling¶

会议: NeurIPS 2025
arXiv: 2510.23285
代码: GitHub
领域: 扩散模型 / 采样加速
关键词: diffusion sampling, SDE solver, ODE solver, adaptive noise injection, few-step generation

一句话总结¶

通过理论分析 ODE 和 SDE 求解器的互补弱点（ODE 积累不可消除的梯度误差，SDE 在少步时离散化误差放大），提出 AdaSDE——在每个去噪步引入可学习随机系数 \(\gamma_i\) 控制噪声注入强度，通过轻量蒸馏优化，在 5 NFE 下实现 CIFAR-10 FID 4.18、FFHQ FID 8.05 的 SOTA。

研究背景与动机¶

领域现状：扩散模型采样需要求解反向微分方程。主流方法分两类：ODE 求解器（DDIM、DPM-Solver 等）提供高效确定性采样但梯度误差不可消除；SDE 求解器注入随机性可修正梯度误差但需要大量步数（100-1000 NFE）。
现有痛点：(a) ODE 求解器在少步（<10 NFE）设置下，学习得分函数与真实得分的差异（梯度误差）沿确定性轨迹不可逆地积累，导致性能天花板；(b) SDE 求解器虽然能通过随机性修正梯度误差，但离散化误差随步长变大而放大，在少步时反而更差；(c) 混合方法如 Restart Sampling 仍需 50+ 步。
核心矛盾：ODE 的梯度误差和 SDE 的离散化误差在少步场景下都是问题——需要找到一个能同时利用 ODE 效率和 SDE 误差修正能力的方法。
本文要解决什么？
SDE 能否在极少步数（<10 NFE）下实现高效采样？
如何自适应地控制随机性强度，在梯度误差修正和离散化误差之间找到最优平衡？
切入角度：理论分析表明 AdaSDE 的梯度误差界有一个收缩因子 \((1-\lambda(\gamma))\)，严格小于 ODE 的梯度误差界（Theorem 3）。关键是 \(\gamma\) 需要自适应调整——每步不同的最优噪声强度。
核心 idea 一句话：在每个去噪步用可学习的 \(\gamma_i\) 控制"前向加噪+后向去噪"的幅度，通过轻量蒸馏优化 \(\gamma_i\)，实现少步 SDE 采样超越 ODE。

方法详解¶

整体框架¶

AdaSDE 是一个单步 SDE 求解器。在每个去噪步 \([t+\Delta t, t]\) 中，执行两个子步：(1) 前向过程：从当前状态 \(x_{t+\Delta t}\) 注入 \(\gamma\)-控制的高斯噪声到达更高噪声水平 \(t+(1+\gamma)\Delta t\)；(2) 后向过程：用 ODE 求解器从高噪声水平确定性地积分回目标时间 \(t\)。\(\gamma_i\) 在每步不同，通过蒸馏优化。

关键设计¶

ODE vs SDE 误差的统一理论分析
做什么：证明 AdaSDE 的梯度误差界严格小于 ODE。
核心思路：Theorem 1 给出 ODE 的误差界 = 梯度误差项（\(B \cdot \text{TV}\)，累积）+ 离散化误差项（\(O(\Delta t^2)\)）。Theorem 2 给出 AdaSDE 的误差界，梯度误差项乘以收缩因子 \((1-\lambda(\gamma)) < 1\)，来自高斯卷积的平滑效应——噪声注入拉近了生成分布和真实分布。Theorem 3 严格证明 \(\mathcal{E}_{\text{grad}}^{\text{AdaSDE}} \leq \mathcal{E}_{\text{grad}}^{\text{ODE}}\)。
设计动机：理论上证实了"适度加噪"能减少梯度误差，为自适应 \(\gamma\) 的引入提供理论基础。但 \(\gamma\) 太大会增加离散化误差，需要优化。
可学习的自适应随机系数 \(\gamma_i\)
做什么：每步学习一个标量 \(\gamma_i \in (0, 1)\)，控制噪声注入强度。
核心思路：将 \(\gamma_i\) 参数化并通过蒸馏优化。关键观察：扩散轨迹跨求解器和数据集具有一致的低维几何结构。因此，\(\gamma_i\) 只需少量数据即可学习。
设计动机：不同去噪步的梯度误差和离散化误差比例不同——前期噪声大，梯度误差修正收益高；后期噪声小，过度加噪的离散化代价大。自适应 \(\gamma_i\) 在每步自动平衡。
过程监督蒸馏优化框架
做什么：通过监督中间步而非仅监督最终结果来优化 \(\gamma_i\)。
核心思路：使用高步数 ODE 求解器（如 250 步 DDIM）生成参考轨迹，在每个中间步对齐 AdaSDE 的轨迹与参考轨迹。只需优化 \(\gamma\) 参数（标量/步），不需要训练神经网络。
设计动机：终端监督（只看最终结果）会使中间步的误差无法得到纠正；过程监督在每步提供反馈，确保整个轨迹接近参考轨迹。由于 \(\gamma\) 是轨迹几何的全局属性（低维），几百个样本就够了。
与现有求解器的即插即用组合
做什么：AdaSDE 的 \(\gamma\) 可以作为插件增强任何单步 ODE 求解器。
核心思路：将任何 ODE 步 \(x_t = \text{ODE}(x_{t+\Delta t})\) 替换为 \(x_t = \text{ODE}(\text{add\_noise}(x_{t+\Delta t}, \gamma_i))\)，无需修改求解器内部逻辑。
设计动机：通用性——不同求解器（Euler、iPNDM、DPM-Solver 等）都可以受益于自适应噪声注入。

损失函数 / 训练策略¶

蒸馏损失：\(\mathcal{L} = \sum_i \|x_t^{\text{AdaSDE}} - x_t^{\text{ref}}\|^2\)（中间步对齐）
训练数据：仅需 ~500 个样本生成参考轨迹
优化参数：仅 \(N\) 个标量 \(\gamma_i\)（\(N\) = 步数），极轻量

实验关键数据¶

主实验：5 NFE¶

数据集	指标(FID↓)	AdaSDE	之前SOTA (AMED)	改善
CIFAR-10	FID	4.18	7.14	1.7×
FFHQ 64×64	FID	8.05	14.85	1.8×
LSUN Bedroom	FID	6.96	-	-

消融实验：与不同基础求解器组合¶

基础求解器	原始 FID	+ AdaSDE FID	改善
Euler	-	显著改善	✓
iPNDM	-	显著改善	✓
DPM-Solver	-	显著改善	✓

AdaSDE 作为即插即用模块，提升了所有测试的基础求解器。

关键发现¶

\(\gamma\) 在不同步骤差异显著：前期步骤的最优 \(\gamma\) 较大（需要更多随机性修正梯度误差），后期步骤 \(\gamma\) 接近 0（避免离散化误差）——验证了自适应的必要性
过程监督远优于终端监督：仅监督最终输出时，中间步轨迹会偏离，导致最终质量下降
轨迹几何的一致性：\(\gamma\) 在不同数据集上的最优值模式相似（都是前大后小），说明扩散轨迹的底层几何结构跨数据集一致
SDE 首次在极少步（5 NFE）下超越 ODE：打破了"少步 = 必须用 ODE"的常识

亮点与洞察¶

"为什么不能用 SDE 做少步采样？"的理论回答：离散化误差 \(O(\delta^{3/2})\) vs ODE 的 \(O(\delta^2)\)——但如果自适应控制 \(\gamma\) 使梯度误差修正收益 > 离散化代价，SDE 就能在少步时超越 ODE。这个洞察非常精准。
极致简洁的优化目标：整个方法只优化 \(N\) 个标量参数（\(N\) = 步数，通常 5-10），是真正的"轻量蒸馏"——不需要训练额外网络，不需要大量数据。
即插即用设计：任何 ODE 求解器 + AdaSDE = 更好的求解器。这种通用性使方法的实际影响力远超单一方法。

局限性 / 可改进方向¶

仍需蒸馏步骤：虽然轻量，但需要预先生成参考轨迹，不是完全 training-free
参考轨迹质量依赖：如果高步数 ODE 参考本身不够好，\(\gamma\) 的优化目标可能有偏
像素空间 vs 隐空间：主要在像素空间验证（CIFAR-10、FFHQ、LSUN），隐空间扩散模型（Stable Diffusion）上的效果未验证
\(\gamma\) 的泛化：学得的 \(\gamma\) 是否跨不同 prompt/条件泛化？条件生成场景未讨论

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次实现少步 SDE 超越 ODE，理论动机→方法设计→实验验证的逻辑链非常完整
实验充分度: ⭐⭐⭐⭐ 多数据集+多求解器组合+消融全面，但缺少隐空间模型实验
写作质量: ⭐⭐⭐⭐⭐ 理论分析清晰严谨，ODE vs SDE 的误差分析非常有启发性
价值: ⭐⭐⭐⭐⭐ 5 NFE SOTA + 即插即用 + 极轻量优化，实际价值极高