Accelerating Diffusion Sampling via Exploiting Local Transition Coherence¶

会议: ICCV 2025
arXiv: 2503.09675
代码: Project Page
领域: image_generation
关键词: 扩散模型加速, 免训练加速, 采样步数压缩, 文生图, 文生视频

一句话总结¶

提出 LTC-Accel，一种基于"局部转移一致性"(Local Transition Coherence) 现象的免训练扩散采样加速方法，通过利用相邻去噪步之间转移算子的强相关性来近似替代当前步的计算，在 Stable Diffusion v2 上实现 1.67× 加速，与蒸馏模型结合可在视频生成中达到 10× 加速。

研究背景与动机¶

扩散模型在文本引导的图像和视频生成中取得了显著突破，但去噪过程的冗长采样时间仍然是实际应用的主要瓶颈。例如，使用 Wan2.1-14B 在单张 H20 GPU 上生成一段 5 秒、8 FPS、720P 的视频需要约 6935 秒。

现有加速方法可分为两类：

训练式方法：通过蒸馏、改变模型结构等方式提升效率，但需要额外的训练资源和时间

免训练方法：包括 DDIM、DPM-Solver 等高效求解器，以及 DeepCache 等基于缓存复用中间特征的方法

然而，现有免训练方法存在明显局限：

要么忽略相邻步之间的统计关系（如直接跳步）
要么依赖注意力或特征相似性（如 DeepCache），这类方法与特定网络结构强耦合，当网络架构变化时需要重新设计缓存策略

核心发现：作者发现了一种全新的统计现象——局部转移一致性 (Local Transition Coherence, LTC)，即在扩散过程的某些阶段，相邻步之间的转移算子 \(\Delta\mathbf{x}_{t+1,t}\) 具有高度相似的方向和大小。这种一致性不依赖于任何特定的网络结构，因此具有极强的通用性。

方法详解¶

整体框架¶

LTC-Accel 的核心思想非常直观：在转移算子高度一致的区间内，用前一步的转移算子来近似当前步的转移算子，从而跳过当前步的网络推理计算。

完整流程分为三步：

识别加速区间：通过衡量相邻步转移算子之间的夹角，找到角度小于阈值 \(\tau\) 的连续区间 \([a, b]\)
执行近似替代：在加速区间内，按照加速周期 \(r\) 决定哪些步用近似替代
（可选）精炼 \(w_g\)：通过端到端搜索进一步提升近似质量

关键设计一：局部转移一致性的量化¶

定义转移算子 \(\Delta\mathbf{x}_{t+1,t} = \mathbf{x}_t - \mathbf{x}_{t+1}\)，即相邻步之间的更新量。

通过计算连续两步转移算子之间的夹角来度量一致性：

\[\theta = \arccos\left(\frac{\Delta\mathbf{x}_{t+1,t} \cdot \Delta\mathbf{x}_{t+2,t+1}}{\|\Delta\mathbf{x}_{t+1,t}\|_2 \|\Delta\mathbf{x}_{t+2,t+1}\|_2}\right)\]

实验观察到，在 Stable Diffusion v2 使用 DDIM 40 步采样时，步骤 12 到 38 之间的角度非常小（约 0.1-0.2），说明该区间内的更新轨迹高度相似。

加速区间定义：选取所有满足 \(\theta_t < \tau\)（通常 \(\tau = 0.1\)）的连续步组成区间 \([a, b]\)。

关键设计二：转移算子近似公式¶

在加速区间内，当步骤 \(t\) 满足加速条件 \(t \bmod r = r - 1\) 时，用以下公式近似：

\[\mathbf{x}_t^* = \mathbf{x}_{t+1} + w_g \cdot \gamma \cdot \Delta\mathbf{x}_{t+2,t+1}\]

其中：

\(\gamma\)：步间进度比例因子，定义为 \(\gamma = \frac{\phi(t) - \phi(t+1)}{\phi(t+1) - \phi(t+2)}\)，其中 \(\phi(t) = \sqrt{\text{SNR}_t}\) 反映去噪进度
\(w_g\)：幅度缩放因子，通过最小化近似误差 \(\|\Delta\mathbf{x}_{t+1,t} - w_g \gamma \Delta\mathbf{x}_{t+2,t+1}\|_2\) 获得最优解：

\[w_g = \frac{\Delta\mathbf{x}_{t+1,t} \cdot \Delta\mathbf{x}_{t+2,t+1}}{\gamma \|\Delta\mathbf{x}_{t+2,t+1}\|^2}\]

\(w_g\) 虽然依赖目标变量 \(\mathbf{x}_t\)，但作者证明它是一个收敛量，仅取决于步骤 \(t\)——不同的初始噪声和提示词下，相同步骤处的 \(w_g\) 值趋于一致。

关键设计三：\(w_g\) 估计与精炼¶

由于实际采样时 \(\mathbf{x}_t\) 未知（正是要近似的目标），作者提出两步算法：

Algorithm 2：逐步计算 \(w_g\)，用近似值 \(\mathbf{x}_t^*\) 作为下一步输入，并在整个加速区间做局部搜索以最小化累积误差
Algorithm 3（可选）：引入全局偏置 bias 调整所有 \(w_g\)，通过 PSNR 评估进行端到端二分搜索，可将 PSNR 从 37.5 提升到 39

误差分析¶

单步近似的相对误差有严格上界：

\[\epsilon_r = \frac{\|\mathbf{x}_t - \mathbf{x}_t^*\|_2}{\|\Delta\mathbf{x}_{t+1,t}\|_2} < \frac{\tau}{2}\]

当 \(\tau \in [0.1, 0.2]\) 时，误差可忽略不计。实际实验中，即使 32.5% 的步骤被近似替代，累积误差仅为 6.0%，PSNR 达到 36.6 dB。

实验关键数据¶

主实验：文生图¶

使用 MS-COCO 2017 的 1000 条提示词，评估指标为 ImageReward 和 PickScore。

模型	采样器	原始步数	加速后步数	加速比	ImageReward 变化
SD v2	DDIM	50	30	1.67×	0.4209→0.4183
SD v2	DDIM	100	60	1.67×	0.4451→0.4467
SD v3.5	DPM-Solver++	60	40	1.50×	几乎无损
SD v3.5	EDM	60	39	1.54×	几乎无损

主实验：文生视频¶

使用 MS-COCO 2017 的 100 条提示词，评估 Frame Consistency 和 Textual Faithfulness。

模型	原始步数	加速后步数	加速比	Text↑	Smooth↑
Anime-diff	30	19	1.58×	0.3462→0.3465	0.9676→0.9681
CogVideoX 2B	30	19	1.58×	0.2302→0.2320	0.9464→0.9435
CogVideoX 2B	40	26	1.54×	0.3918→0.3775	0.9514→0.9511

与其他方法组合¶

组合方式	模型	单独加速比	组合加速比	质量影响
+ DeepCache	SD v2 (50步)	1.66×	2.34×	ImageReward 从 0.4039 提升到 0.4096
+ Align Your Steps	SD v1.5 (10步)	-	1.25×	ImageReward 仅降 0.0023
+ Anime-diff-Lightning	蒸馏4步	7.5×	10×	最少3步生成，质量几乎无损
+ INT8 量化	CogVideoX 2B	-	1.54×	兼容，质量无明显下降

消融实验：LTC-Accel vs 直接跳步¶

采样器	步数	跳步 ImageReward	LTC-Accel ImageReward
DDIM	7	0.0537	0.1472
DDIM	10	0.2003	0.2442
DDIM	13	0.2812	0.3129
EDM	7	0.0158	0.2018
EDM	10	0.2003	0.3171
EDM	13	0.2582	0.3335

LTC-Accel 在所有设置下都显著优于简单跳步策略，尤其在步数较少时优势更加明显。

亮点与洞察¶

发现了全新的统计现象：Local Transition Coherence 揭示了扩散采样过程中相邻步转移算子的内在一致性。这一发现不同于以往基于注意力相似性或特征缓存的观察，是更底层、更通用的规律
彻底解耦了加速方法与网络架构：LTC-Accel 仅关注网络输出之间的关系，不对网络内部结构做任何假设，因此可以无缝适配 U-Net（SD v2）、DiT（SD v3.5）、视频模型（CogVideoX）等不同架构
与几乎所有现有加速方法正交：可以和 DeepCache、Align Your Steps、蒸馏模型、INT8 量化等方法自由叠加，产生额外加速。这种可组合性在实践中非常有价值
\(w_g\) 的收敛性保证了方法的可行性：尽管 \(w_g\) 理论上依赖未知量 \(\mathbf{x}_t\)，但其在不同输入下的收敛性使得预计算成为可能，这是方法能够实际应用的数学基础
实现了视频生成的实时化潜力：与蒸馏模型结合达到 10× 加速、16+ FPS 的实时视频生成，对视频扩散模型的部署具有重要现实意义

局限性¶

依赖 LTC 现象的存在：当采样步数极少（如少于 3 步）时，局部转移一致性会减弱，方法失效。这限制了与极端步数压缩的蒸馏模型的组合
需要超参数调优：加速区间 \([a,b]\)、周期参数 \(r\)、阈值 \(\tau\) 等需要根据不同模型和采样器手动调整，虽然 \(r=2\) 在大多数场景下通用，但不同扩散过程的最优加速区间可能差异较大
\(w_g\) 预计算有额外开销：尽管 \(w_g\) 收敛且可预计算，但针对新模型和新采样器需要先运行一次完整采样来确定 \(w_g\) 序列和加速区间
加速比有天花板：典型加速比在 1.5-1.67× 左右，虽然与其他方法叠加可以达到更高，但单独使用时加速幅度有限

评分¶

新颖性: ⭐⭐⭐⭐ — 发现 LTC 现象并基于此设计加速方法，角度新颖
理论深度: ⭐⭐⭐⭐ — 有完整的数学推导、误差分析和收敛性分析
实验充分性: ⭐⭐⭐⭐⭐ — 覆盖多个模型、多种采样器、多种组合方式，消融完善
实用价值: ⭐⭐⭐⭐⭐ — 免训练、架构无关、可组合，工程友好度极高
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，图表丰富

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评