TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration¶

日期: 2026-03-03
arXiv: 2603.02943
代码: 无
领域: 图像生成
关键词: 扩散模型加速, 特征缓存, Padé逼近, 残差预测, 视频生成

一句话总结¶

TC-Padé 提出基于 Padé 有理函数逼近的残差预测框架，通过自适应系数调制和分阶段预测策略，在低步数（20-30步）扩散采样中实现轨迹一致性加速，在 FLUX.1-dev 上实现 2.88× 加速且质量损失极小。

领域现状：扩散模型生成质量优秀但采样慢，需要数十到上百次前向推理。现有加速方法分为两类：减少采样步数（DDIM、蒸馏）和降低每步计算量（特征缓存）。
现有痛点：特征缓存方法在高步数（50步）下效果好，但在实际常用的低步数（20-30步）下严重退化。步间间隔增大后，重用类方法的"特征近似相同"假设失效，预测类方法（如 TaylorSeer）的 Taylor 展开因收敛半径有限而误差累积。
核心矛盾：低步数下每步间隔大，特征相似性指数衰减，Taylor 多项式外推在这种大间隔下发散——这是多项式逼近的固有局限。同时，现有方法在整个去噪过程中使用统一策略，忽略了不同去噪阶段特征演化的差异性。
切入角度：Padé 有理函数逼近（多项式之比）比 Taylor 展开有更好的渐近性质，能捕捉函数的极点和剧烈非线性变化。在残差空间而非原始特征空间做预测，因为残差的时序相似性远高于原始特征。
核心 idea 一句话：用 Padé 有理函数在残差空间做预测 + 分阶段策略，实现低步数下轨迹一致的扩散加速。

将采样轨迹划分为缓存间隔（cache interval），每个间隔的第一步做完整计算，后续步骤通过轨迹稳定性指标（TSI）自适应决定是做完整计算还是 Padé 预测。输入是历史缓存的残差序列，输出是预测的当前步残差，加回输入特征得到输出。

残差预测而非原始特征预测：
- 定义残差 \(\mathcal{R}_t = x_t^r - x_t^l\) 为层 \(l\) 到层 \(r\) 的增量更新
- 核心发现：残差的时序余弦相似性远高于原始特征（图 4 实验验证），TaylorSeer 的原始特征相似性低于 0.5
- 在整个 DiT block 序列上缓存残差效果最优（消融实验 Table 4）
Padé 有理函数预测：
- Taylor 展开 \(\sum a_i x^i\) 在收敛半径外发散，Padé 逼近 \(P_m(x)/Q_n(x)\) 能捕捉渐近行为和相变
- 采用 [2/1] 阶 Padé：\(\mathcal{R}_{t} = \frac{b_0 \mathcal{R}_{t+3} + b_1 \mathcal{R}_{t+2}}{1 + a_1 \mathcal{R}_{t+1}}\)
- 自适应系数：稳定性因子 \(\sigma_{stab} = \exp(-\lambda \frac{\|\mathcal{R}_{t+1} - \mathcal{R}_{t+2}\|}{\|\mathcal{R}_{t+1} + \mathcal{R}_{t+2}\|})\)，残差变化大时系数趋于 0（回退到保守策略），稳定时趋于 1
去噪阶段感知策略：
- 早期（\(t > 0.7T\)）：结构快速形成，用最近两步残差的加权组合
- 中期（\(0.2T \leq t \leq 0.7T\)）：用完整 Padé 逼近捕捉长程依赖
- 晚期（\(t < 0.2T\)）：细节精修，Padé 预测 + 一阶差分项补偿速度变化
轨迹稳定性指标（TSI）：
- \(\text{TSI} = \frac{1}{2}\|\mathbf{u}_{t+1} - \mathbf{u}_{t+2}\|_2\)，其中 \(\mathbf{u}_t\) 是归一化残差差分向量
- TSI ≥ 阈值 θ 时跳过计算用预测，TSI < θ 时做完整计算保证保真度

方法	加速比	FID↓	CLIP↑	PSNR↑	SSIM↑
原始	1.00×	23.38	32.10	-	-
TaylorSeer (N=5)	2.31×	严重退化	31.52	17.46	0.52
TaylorSeer (N=6)	2.59×	严重退化	30.95	16.57	0.56
TC-Padé (slow)	2.20×	23.85	31.90	24.67	0.86
TC-Padé (fast)	2.88×	24.14	31.82	21.96	0.78

方法	加速比	VBench-2.0↑	PSNR↑
原始	1.00×	64.16%	-
TeaCache (fast)	1.44×	58.40%	21.35
TaylorSeer (N=3)	1.31×	54.74%	15.02
TC-Padé (fast)	1.72×	60.38%	21.70