ICML2025 图像生成扩散模型加速 ODE求解器稳定性准则自适应稀疏无训练加速 Token剪枝特征缓存

SADA: Stability-guided Adaptive Diffusion Acceleration¶

会议: ICML2025
arXiv: 2507.17135
代码: GitHub
领域: 扩散加速 / Diffusion Acceleration
关键词: 扩散模型加速, ODE求解器, 稳定性准则, 自适应稀疏, 无训练加速, Token剪枝, 特征缓存

一句话总结¶

提出基于ODE轨迹二阶差分的稳定性准则（Stability Criterion），统一调控步级（step-wise）和token级（token-wise）稀疏决策，在SD-2/SDXL/Flux上实现≥1.8×加速且LPIPS≤0.10、FID≤4.5，显著优于DeepCache和AdaptiveDiffusion。

研究背景与动机¶

扩散模型在图像/视频/音频生成中取得显著成果，但推理效率受两大瓶颈制约：

迭代去噪过程：需要数十步采样，每步都需完整前向传播

注意力计算的二次复杂度：高分辨率下自注意力计算代价巨大

现有无训练加速方法主要分两类：

减少推理步数：DDIM、DPM-Solver等高阶ODE求解器
减少单步计算量：DeepCache（步级缓存）、Token Merging/Pruning（token级）

但这两类方法存在明显的保真度差异（fidelity gap），原因在于：

(a) 固定或预搜索的稀疏模式无法适应每个prompt不同的去噪轨迹
(b) 这些方法未利用底层ODE公式及其数值求解器的信息

SADA 正是为解决这两个问题而提出的。

方法详解¶

核心思想：稳定性准则统一调控¶

SADA 将扩散加速问题建模为稳定性预测问题，核心是利用ODE轨迹上的精确梯度信息 \(y_t = \frac{dx_t}{dt}\) 来度量去噪过程的局部动态稳定性。

1. 稳定性准则（Stability Criterion）¶

定义ODE轨迹的二阶差分 \(\Delta^{(2)} y_t\) 作为稳定性指标。在时间步 \(t\)，若满足：

\[ (x_{t-1} - \hat{x}_{t-1}) \cdot \Delta^{(2)} y_t < 0 \]

则该步被判定为稳定的，可以进行加速。其中 \(\hat{x}_{t-1}\) 是三阶外推估计值。

当准则返回 True（稳定）→ 执行步级缓存辅助剪枝（step-wise / multistep-wise）
当准则返回 False（不稳定）→ 执行token级缓存辅助剪枝（token-wise）

2. 步级缓存辅助剪枝（Step-wise Cache-Assisted Pruning）¶

提供两种近似方案：

（a）Step-wise 近似（Adams-Moulton法）：利用三阶Adams-Moulton方法沿ODE轨迹外推：

\[ \hat{x}_{t-1} = x_t - \frac{5\Delta t}{6} y_t - \frac{5\Delta t}{6} y_{t+1} + \frac{2\Delta t}{3} y_{t+2} \]

局部截断误差为 \(\mathcal{O}(\Delta t^2)\)，与简单的有限差分相比具有更低的均值误差和更小的标准差。

（b）Multistep-wise 近似（Lagrange插值）：当轨迹进入稳定区域后，采用均匀步级剪枝+Lagrange插值。缓存每隔 \(k\) 步的 \(x_0^t\)，对跳过的步用插值重建：

\[ \hat{x}_0^t = \sum_{i \in I} \left( \prod_{j \in I \setminus \{i\}} \frac{t - t_j}{t_i - t_j} \right) x_0^{t_i} \]

插值误差为 \(\mathcal{O}(h^{k+1})\)。

3. Token级缓存辅助剪枝（Token-wise Cache-Assisted Pruning）¶

当步级稳定性准则返回False时，在更细粒度的token级别评估稳定性：

将token分为不稳定集 \(\mathcal{I}_{\text{fix}}\)（需完整计算）和稳定集 \(\mathcal{I}_{\text{reduce}}\)（用缓存近似）
仅对 \(\mathcal{I}_{\text{fix}}\) 中的token执行注意力计算
\(\mathcal{I}_{\text{reduce}}\) 中的token用上一步的缓存表示 \(\mathcal{C}_l\) 替代
每次计算后增量更新缓存

4. 理论保证¶

Theorem 3.1：Lagrange外推误差 \(R_k(h) = \mathcal{O}(h^k)\)
Theorem 3.6：重建误差 \(\|\hat{x}_0^t - x_0^t\| = \mathcal{O}(\Delta t) + \mathcal{O}(\Delta x_t)\)
Theorem 3.2-3.3：证明采样轨迹的连续性和去噪器的一致性

实验关键数据¶

主实验：MS-COCO 2017 定量结果¶

模型	求解器	方法	PSNR↑	LPIPS↓	FID↓	加速比
SD-2	DPM++	DeepCache	17.70	0.271	7.83	1.43×
SD-2	DPM++	AdaptiveDiffusion	24.30	0.100	4.35	1.45×
SD-2	DPM++	SADA	26.34	0.094	4.02	1.80×
SDXL	DPM++	DeepCache	21.30	0.255	8.48	1.74×
SDXL	DPM++	AdaptiveDiffusion	26.10	0.125	4.59	1.65×
SDXL	DPM++	SADA	29.36	0.084	3.51	1.86×
Flux	Flow	TeaCache	19.14	0.216	4.89	2.00×
Flux	Flow	SADA	29.44	0.060	1.95	2.02×

少步采样消融¶

模型	求解器	步数	PSNR↑	LPIPS↓	FID↓	加速比
SD-2	DPM++	50	26.34	0.094	4.02	1.80×
SD-2	DPM++	25	28.15	0.073	3.13	1.48×
SD-2	DPM++	15	29.84	0.072	3.05	1.24×
SDXL	DPM++	50	29.36	0.084	3.51	1.86×
SDXL	DPM++	25	30.84	0.073	2.80	1.52×

步数减少时保真度反而提升（误差累积更少），同时仍能提供~1.25-1.5×额外加速。

跨模态/跨任务¶

MusicLDM 音频生成：1.81×加速，频谱LPIPS仅~0.01
ControlNet 可控生成：1.41×加速，无需任何修改即可即插即用

亮点与洞察¶

理论创新：首次将ODE数值求解器与稀疏感知架构优化直接桥接，用稳定性准则统一步级和token级加速决策
自适应分配：不同prompt自动获得不同的稀疏模式，无需手动调参或预搜索
有原则的近似：利用Adams-Moulton法和Lagrange插值提供误差有界的近似方案，而非简单地复用噪声
广泛兼容：跨架构（UNet/DiT）、跨求解器（Euler/DPM++）、跨模态（图像/音频）、跨任务（ControlNet）
即插即用：无训练、无额外超参数调优，直接作为采样过程的插件

局限与展望¶

视频生成未验证：论文未在视频扩散模型（如Sora架构）上验证效果
极少步场景加速有限：15步时加速比降至~1.25×，边际收益递减
稳定性准则依赖历史缓存：前几步需完整计算来积累梯度历史，存在冷启动开销
Token剪枝 vs Token Merging：论文选择了token pruning而非merging（附录分析merging是低通滤波器），但在某些场景merging可能更优
单GPU评测：未报告多GPU分布式场景下的加速效果

评分¶

新颖性: ⭐⭐⭐⭐ — 稳定性准则统一步级/token级决策是全新范式，ODE求解器与架构稀疏的桥接具有理论深度
实验充分度: ⭐⭐⭐⭐ — 三个主流模型×两种求解器×多步数消融+跨模态验证，较为全面
写作质量: ⭐⭐⭐⭐ — 理论推导严谨，符号体系清晰，图表直观
价值: ⭐⭐⭐⭐⭐ — 实用的即插即用加速方案，1.8-2×加速+高保真度，对工业部署有直接价值