Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation¶

基本信息¶

arXiv: 2506.00329
会议: NeurIPS 2025
作者: Muhammad Adnan, Nithesh Kurella, Akhil Arunkumar, Prashant J. Nair
机构: University of British Columbia, d-Matrix
代码: https://github.com/STAR-Laboratory/foresight

一句话总结¶

提出 Foresight，一种训练无关的自适应层复用框架，通过动态 MSE 阈值决策在 DiT 去噪过程中哪些层可复用缓存、哪些需重新计算，在 OpenSora/Latte/CogVideoX 上实现最高 1.63× 端到端加速且保持视频质量。

背景与动机¶

DiT 视频生成的推理瓶颈来自两方面：(1) 空时注意力的 $\mathcal{O}(L^2)$ 复杂度随分辨率和帧数增长；(2) 数十步去噪过程的累积计算。

现有特征缓存方法（Static, PAB, Δ-DiT, T-GATE）采用静态复用策略——固定间隔、所有层统一处理。但作者发现复用潜力在以下三个维度高度变化： 1. 层间差异：后期层特征变化更大，不适合粗暴复用 2. Prompt 依赖：快速场景变化的 prompt 复用潜力低 3. 配置敏感：分辨率、帧数、去噪调度改变复用模式

核心问题¶

如何自适应地决策每一步每一层是否复用缓存，实现速度与质量的最优平衡？

方法详解¶

1. Warmup Phase¶

前 $W$ 步（默认 15%）正常计算所有层，让特征稳定后： - 初始化缓存 $\mathcal{C}$ - 建立每层的自适应复用阈值 $\lambda$： $$\lambda_{\mathbf{x}}^l = \sum_{t=W-2}^{W} \frac{1}{10^{W-t}} \left(\frac{1}{P}\sum_{i=1}^P (x_i^l(t) - x_i^l(t-1))^2\right)$$ 用几何加权的最后三步 MSE，阈值因层、prompt、分辨率而异。

2. Reuse Phase¶

交替进行复用（$N$ 步）和重计算（每 $R$ 步）：

重计算步更新复用指标 $\delta$： $$\delta_{\mathbf{x}}^l(t) = \frac{1}{P}\sum_{i=1}^P (x_i^l(t) - \mathcal{C}_i^l(t-1))^2$$

下一步按阈值决策： $$\mathbf{x}_{t+1}^l = \begin{cases} \mathcal{C}(\mathbf{x}_t^l), & \text{if } \delta_{\mathbf{x}}^l(t) \leq \gamma \lambda_{\mathbf{x}}^l \\ \text{Compute}, & \text{otherwise} \end{cases}$$

缩放因子 $\gamma \in (0, 2]$ 控制速度-质量平衡。

3. 关键设计选择¶

粗粒度复用：复用整个 DiT block（而非 PAB 的细粒度 attention/MLP 分离），缓存开销降低 3×
逐层独立决策：后期层更频繁重计算，前期层大量复用
收敛性保证：证明自适应复用的误差有界且可控：$\|\hat{\mathbf{x}}_t - \mathbf{x}_t^*\| \leq \varepsilon_{tot}/(1-\rho)$

实验关键数据¶

VBench Benchmark (550 prompts)¶

模型	方法	VBench Acc	PSNR↑	SSIM↑	加速比
OpenSora	PAB	75.32	25.67	0.85	1.26×
	Foresight (N=1,R=2)	75.90	29.67	0.90	1.28×
	Foresight (N=2,R=3)	75.62	27.49	0.87	1.44×
CogVideoX	PAB	77.89	29.04	0.91	1.37×
	Foresight (N=1,R=2)	77.94	34.75	0.95	1.46×
	Foresight (N=2,R=3)	77.84	28.45	0.87	1.63×

扩展到 HunyuanVideo/Wan-2.1¶

HunyuanVideo：Foresight 达 1.62× 加速，PSNR 41.79 远超 TeaCache
Wan-2.1：Foresight 达 2.23× 加速

消融实验¶

$\gamma=0.25$：PSNR 38.09（比 PAB 高 +9.97），延迟仅增加 0.62s
$\gamma=2.0$：PSNR 29.51，最大加速
最佳 warmup：15%
缓存开销：Foresight 仅需 $2L \cdot H \cdot W \cdot F$，比 PAB 的 $6L \cdot H \cdot W \cdot F$ 少 3×

亮点¶

自适应而非静态：每层每步独立决策，适应 prompt/分辨率/调度的变化
训练无关，即插即用：不改架构，不需额外训练
理论保证：证明有界误差和收敛性
广泛验证：5 个模型（OpenSora, Latte, CogVideoX, HunyuanVideo, Wan-2.1）+ FLUX T2I
质量优于速度优先：在同等加速下质量全面超越静态方法

局限性¶

加速比受限于复用窗口 $N$ 和 warmup $W$ 的配置
目前采用粗粒度（block 级）复用，细粒度可能进一步提升
自适应阈值依赖 warmup 阶段的 MSE 估计质量
1.63× 加速幅度相对有限（vs. 步数压缩或蒸馏的 10-50×）

与相关工作的对比¶

vs. PAB：PAB 按经验固定不同注意力类型的 broadcast 范围，Foresight 按数据驱动动态决策
vs. TeaCache：TeaCache 利用 timestep embedding 的变化量做缓存判断，Foresight 用特征 MSE，后者更精确
vs. Δ-DiT：Δ-DiT 缓存残差偏移量而非完整特征，且仍是静态方案
vs. 步数压缩/蒸馏：Foresight 与这些方法正交，可组合使用

启发与关联¶

与 InfinityStar 的互补：InfinityStar 将 AR 推理控制在极少步数，Foresight 针对扩散模型减少每步计算——两者分别代表 AR 和 Diffusion 的效率优化方向
自适应粒度的未来：从 block 级复用扩展到 attention head 级或 token 级复用是自然方向
系统层面优化：Foresight 的设计考虑了 FlashAttention 兼容性和 GPU VRAM，有工程落地性

评分¶

新颖性：★★★☆☆ — 自适应缓存的思路不算全新，但阈值设计和分析有价值
技术深度：★★★★☆ — 收敛性证明和系统性分析扎实
实验完整度：★★★★★ — 5 模型 × 多 benchmark × 多配置 × 消融
写作质量：★★★★☆ — 清晰，但略冗长