TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration¶
日期: 2026-03-03
arXiv: 2603.02943
代码: 无
领域: 图像生成
关键词: 扩散模型加速, 特征缓存, Padé逼近, 残差预测, 视频生成
一句话总结¶
TC-Padé 提出基于 Padé 有理函数逼近的残差预测框架,通过自适应系数调制和分阶段预测策略,在低步数(20-30步)扩散采样中实现轨迹一致性加速,在 FLUX.1-dev 上实现 2.88× 加速且质量损失极小。
研究背景与动机¶
- 领域现状:扩散模型生成质量优秀但采样慢,需要数十到上百次前向推理。现有加速方法分为两类:减少采样步数(DDIM、蒸馏)和降低每步计算量(特征缓存)。
- 现有痛点:特征缓存方法在高步数(50步)下效果好,但在实际常用的低步数(20-30步)下严重退化。步间间隔增大后,重用类方法的"特征近似相同"假设失效,预测类方法(如 TaylorSeer)的 Taylor 展开因收敛半径有限而误差累积。
- 核心矛盾:低步数下每步间隔大,特征相似性指数衰减,Taylor 多项式外推在这种大间隔下发散——这是多项式逼近的固有局限。同时,现有方法在整个去噪过程中使用统一策略,忽略了不同去噪阶段特征演化的差异性。
- 切入角度:Padé 有理函数逼近(多项式之比)比 Taylor 展开有更好的渐近性质,能捕捉函数的极点和剧烈非线性变化。在残差空间而非原始特征空间做预测,因为残差的时序相似性远高于原始特征。
- 核心 idea 一句话:用 Padé 有理函数在残差空间做预测 + 分阶段策略,实现低步数下轨迹一致的扩散加速。
方法详解¶
整体框架¶
将采样轨迹划分为缓存间隔(cache interval),每个间隔的第一步做完整计算,后续步骤通过轨迹稳定性指标(TSI)自适应决定是做完整计算还是 Padé 预测。输入是历史缓存的残差序列,输出是预测的当前步残差,加回输入特征得到输出。
关键设计¶
-
残差预测而非原始特征预测:
- 定义残差 \(\mathcal{R}_t = x_t^r - x_t^l\) 为层 \(l\) 到层 \(r\) 的增量更新
- 核心发现:残差的时序余弦相似性远高于原始特征(图 4 实验验证),TaylorSeer 的原始特征相似性低于 0.5
- 在整个 DiT block 序列上缓存残差效果最优(消融实验 Table 4)
-
Padé 有理函数预测:
- Taylor 展开 \(\sum a_i x^i\) 在收敛半径外发散,Padé 逼近 \(P_m(x)/Q_n(x)\) 能捕捉渐近行为和相变
- 采用 [2/1] 阶 Padé:\(\mathcal{R}_{t} = \frac{b_0 \mathcal{R}_{t+3} + b_1 \mathcal{R}_{t+2}}{1 + a_1 \mathcal{R}_{t+1}}\)
- 自适应系数:稳定性因子 \(\sigma_{stab} = \exp(-\lambda \frac{\|\mathcal{R}_{t+1} - \mathcal{R}_{t+2}\|}{\|\mathcal{R}_{t+1} + \mathcal{R}_{t+2}\|})\),残差变化大时系数趋于 0(回退到保守策略),稳定时趋于 1
-
去噪阶段感知策略:
- 早期(\(t > 0.7T\)):结构快速形成,用最近两步残差的加权组合
- 中期(\(0.2T \leq t \leq 0.7T\)):用完整 Padé 逼近捕捉长程依赖
- 晚期(\(t < 0.2T\)):细节精修,Padé 预测 + 一阶差分项补偿速度变化
-
轨迹稳定性指标(TSI):
- \(\text{TSI} = \frac{1}{2}\|\mathbf{u}_{t+1} - \mathbf{u}_{t+2}\|_2\),其中 \(\mathbf{u}_t\) 是归一化残差差分向量
- TSI ≥ 阈值 θ 时跳过计算用预测,TSI < θ 时做完整计算保证保真度
实验关键数据¶
主实验(FLUX.1-dev, 20步, COCO 2017)¶
| 方法 | 加速比 | FID↓ | CLIP↑ | PSNR↑ | SSIM↑ |
|---|---|---|---|---|---|
| 原始 | 1.00× | 23.38 | 32.10 | - | - |
| TaylorSeer (N=5) | 2.31× | 严重退化 | 31.52 | 17.46 | 0.52 |
| TaylorSeer (N=6) | 2.59× | 严重退化 | 30.95 | 16.57 | 0.56 |
| TC-Padé (slow) | 2.20× | 23.85 | 31.90 | 24.67 | 0.86 |
| TC-Padé (fast) | 2.88× | 24.14 | 31.82 | 21.96 | 0.78 |
视频生成(Wan2.1, 20步)¶
| 方法 | 加速比 | VBench-2.0↑ | PSNR↑ |
|---|---|---|---|
| 原始 | 1.00× | 64.16% | - |
| TeaCache (fast) | 1.44× | 58.40% | 21.35 |
| TaylorSeer (N=3) | 1.31× | 54.74% | 15.02 |
| TC-Padé (fast) | 1.72× | 60.38% | 21.70 |
关键发现¶
- TaylorSeer 在 20 步下 FID 严重退化到无法比较(标记 †),TC-Padé 仅 +0.76 FID
- 残差空间预测是关键:整个 block 级缓存 > 单 stream 级 > 双 stream 级
- TSI 阈值 θ 控制加速-质量权衡:θ=0.7 最激进(2.88×),θ=1.3 最保守(1.63×)
- 可与量化叠加使用:TC-Padé + 量化进一步降低延迟
亮点与洞察¶
- Padé 逼近替代 Taylor 展开是关键创新:有理函数能捕捉多项式无法表达的非线性动态,特别适合低步数大间隔场景
- 残差空间预测的洞察很实用:残差的时序平滑性远优于原始特征,这个 trick 可迁移到其他缓存加速方法
- 分阶段策略反映了对扩散过程物理特性的理解:早期粗结构、中期主体、晚期细节,各阶段需要不同的预测策略
局限性 / 可改进方向¶
- 需要 3 步历史残差的缓存,增加了少量内存开销
- 阶段划分比例(0.7T, 0.2T)是手动设定的,可能需要针对不同模型调整
- 仅验证了 DiT 架构,U-Net 架构的适用性未探索
- TSI 阈值需要手动调优,不同任务最优值可能不同
相关工作与启发¶
- vs TaylorSeer:TaylorSeer 用 Taylor 多项式直接预测原始特征,TC-Padé 用 Padé 有理函数预测残差,在低步数下优势明显
- vs TeaCache:TeaCache 基于输入差异门控重用,TC-Padé 用更精确的预测替代简单重用
- vs 蒸馏方法:TC-Padé 无需训练,即插即用,可与蒸馏正交使用
评分¶
- 新颖性: ⭐⭐⭐⭐ Padé 逼近引入扩散加速是新颖的数学工具迁移
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖图像和视频、三个模型、完整消融
- 写作质量: ⭐⭐⭐⭐ 数学推导清晰,PCA 可视化直观
- 价值: ⭐⭐⭐⭐ 实用性强,低步数场景的痛点解决方案