MagCache: Fast Video Generation with Magnitude-Aware Cache¶

会议: NeurIPS 2025
arXiv: 2506.09045
代码: https://github.com/Zehong-Ma/MagCache
领域: 图像/视频生成 / 模型压缩
关键词: 视频扩散模型加速, 缓存复用, 残差幅度定律, 时间步跳过, 推理加速

一句话总结¶

发现视频扩散模型中连续时间步残差输出的幅度比(magnitude ratio)遵循统一的单调递减规律（跨模型、跨prompt稳定），提出MagCache基于此规律自适应跳过冗余时间步并复用缓存，仅需1个样本校准即可在Open-Sora/CogVideoX/Wan 2.1/HunyuanVideo上实现2.1-2.68×加速，视觉保真度全面超越现有方法。

背景与动机¶

视频扩散模型推理速度慢是核心瓶颈（Wan 2.1生成5秒视频在单A800上需要数分钟）。基于缓存的加速方法（如DeepCache、TeaCache）通过复用相邻时间步的中间特征减少计算。但已有方法的问题：(1) 均匀策略不考虑时间步间的动态差异；(2) TeaCache需要70个curated prompts做多项式拟合，容易过拟合；(3) prompt特异性强，换prompt可能失效。

核心问题¶

能否找到一个跨模型、跨prompt都稳定的指标来衡量相邻时间步的残差差异，从而自适应决定何时跳过时间步？

方法详解¶

整体框架¶

基于"统一幅度定律"(Unified Magnitude Law)的自适应缓存机制：监控残差幅度比 → 误差建模 → 当累积误差未超阈值时复用缓存跳过时间步。

关键发现：统一幅度定律¶

残差幅度比(Magnitude Ratio): γ_t = mean(||r_t||2 / ||r||_2)

三个关键观察： 1. 前80%时间步: γ_t缓慢单调递减（接近1→逐渐远离1），cosine距离近0——说明残差变化主要来自幅度变化而非方向变化 2. 后20%时间步: γ_t急剧下降，cosine距离也增大——生成过程的最终阶段变化最大 3. 跨模型跨prompt稳定: Wan 2.1和Open-Sora呈现相同trend，不同prompt的γ_t曲线几乎重合

→ 这意味着γ_t是一个统一的、鲁棒的冗余度指标，无需per-prompt校准

关键设计¶

精确误差建模: 从上一次缓存更新点ˆt到当前步t的跳过误差：ε_skip(ˆt,t) = 1 - Π_{i=ˆt+1}^{t} γ_i。基于γ_i的累乘直接估算，不需要多项式拟合。支持连续多步跳过的误差估计（TeaCache在此场景失败）。
自适应缓存策略: 两个条件控制是否继续复用缓存：(a) 累积误差E ≤ δ（阈值）；(b) 跳过步数 ≤ K（最大跳过长度）。当任一条件不满足时，执行完整模型计算并更新缓存。
单样本校准: 只需1个随机样本的1次前向传播即可获得完整的γ_t曲线，用于后续所有推理。vs TeaCache需要70个curated prompts做calibration。

损失函数 / 训练策略¶

完全无需训练（training-free），即插即用
校准成本极低：1个样本1次前向传播

实验关键数据¶

视频扩散模型加速:

模型	加速比	LPIPS↓	SSIM↑	PSNR↑
Open-Sora	2.10×	最优	最优	最优
CogVideoX	2.35×	最优	最优	最优
Wan 2.1	2.50×	最优	最优	最优
HunyuanVideo	2.68×	最优	最优	最优

在同等计算预算下，MagCache在LPIPS/SSIM/PSNR上全面优于TeaCache、PAB、∆-DiT等方法
也在图像扩散模型Flux上验证有效
HunyuanVideo上2.68×加速——生成速度几乎翻3倍

消融实验要点¶

γ_t vs TeaCache的多项式拟合: γ_t更稳定、不过拟合、不需要curated prompts
连续多步跳过: MagCache误差估计准确，TeaCache多步跳过时误差爆炸
阈值δ: 控制速度-质量权衡，δ=0.1~0.3是最优范围
最大跳过长度K: K=5-8步最优，过大导致质量下降
跨模型泛化: 同一校准曲线可直接用于不同prompt和类似架构的模型

亮点¶

简洁优雅的发现: 统一幅度定律——一个简单的比值就刻画了时间步间的冗余度
鲁棒性极强: 跨4个不同的视频扩散模型+1个图像扩散模型都有效
校准成本极低: 1个样本 vs TeaCache的70个样本——降低70倍
工程友好: 即插即用，无需训练，兼容任何流匹配/扩散模型

局限性 / 可改进方向¶

后20%时间步γ_t急剧变化，跳过策略在这些步骤可能不稳定
阈值δ仍需手动设置，不同分辨率/时长可能需要调整
仅关注时间步层面的缓存，未考虑空间层面的token级缓存
与蒸馏方法（如consistency distillation）的组合未探索
对于非常短的采样步数（如<20步），加速空间有限

与相关工作的对比¶

vs TeaCache: TeaCache用多项式拟合+70个prompts校准，MagCache用幅度比+1个样本——更简单更稳定
vs PAB (Pyramid Attention Broadcast): PAB在attention层做缓存，MagCache在残差层做缓存——不同粒度
vs ∆-DiT: ∆-DiT缓存attention残差，MagCache缓存整体残差——更通用

启发与关联¶

"残差幅度比单调递减"的发现可能在LLM推理中也有类似规律——推理早期步骤可能比后期步骤更可预测
与FlowCut的信息流分析互补：FlowCut分析ViT中的信息流决定token剪枝，MagCache发现扩散模型中的幅度流决定时间步跳过
MagCache + 空间token缓存 = 时间+空间双维度缓存加速

评分¶

新颖性: ⭐⭐⭐⭐⭐ 统一幅度定律是一个简洁而深刻的发现
实验充分度: ⭐⭐⭐⭐⭐ 4个视频模型+1个图像模型，多个metric，与多方法对比
写作质量: ⭐⭐⭐⭐⭐ Figure 1的幅度比/标准差/cosine距离三图清晰展示发现
价值: ⭐⭐⭐⭐⭐ 视频生成加速的SOTA方法，工业部署直接可用