DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching¶
会议: CVPR 2026
arXiv: 2602.05449
代码: 即将公开
领域: 视频生成 / 扩散模型加速
关键词: 特征缓存, 步蒸馏, MeanFlow, 可学习预测器, HunyuanVideo
一句话总结¶
DisCa 首次将可学习特征缓存与步蒸馏统一为兼容框架,用轻量神经预测器(<4% 模型参数)替代手工缓存策略,配合 Restricted MeanFlow 稳定大规模视频 DiT 蒸馏,在 HunyuanVideo 上实现 11.8× 近无损加速。
研究背景与动机¶
领域现状:视频扩散模型(如 HunyuanVideo)生成质量已达 SOTA 水平,但推理极慢——以 HunyuanVideo 为例,50 步 CFG 推理生成一段 5 秒 704×704 视频需 1155 秒。现有加速手段主要有两条路线:减少采样步数的步蒸馏(如 MeanFlow),以及跳过冗余计算的特征缓存(如 TaylorSeer、TeaCache)。
现有痛点:步蒸馏方面,MeanFlow 在图像生成上表现优秀,但直接应用于大规模视频 DiT 时,JVP 运算的数值误差加上原始设计过于激进(目标一步生成),导致训练发散和严重伪影——10 步 MeanFlow 语义分直降 17.1%。特征缓存方面,传统方法依赖步间特征相似性进行复用或 Taylor 展开预测,但在步蒸馏后采样轨迹变得稀疏,相邻步特征差异剧增,简单手工策略完全失效——TaylorSeer 在高加速比场景下语义分也下降 13.3%。
核心矛盾:两种加速路线各有局限且难以兼容——蒸馏后的稀疏轨迹恰好破坏了缓存方法所依赖的步间冗余假设,简单叠加两者反而比单独使用更差。
本文目标 如何让步蒸馏和特征缓存两种加速策略真正兼容并互补,在大规模视频 DiT 上实现极致加速而不牺牲质量。
切入角度:用可学习的神经网络预测器替代手工缓存公式来捕捉高维特征演化;同时通过限制 MeanFlow 的压缩范围来稳定蒸馏过程。
核心 idea:蒸馏后的特征演化虽然超出 Taylor 展开等手工方法的建模能力,但轻量神经网络仍可准确学到这种高维演化规律。
方法详解¶
整体框架¶
DisCa 采用三级级联加速流水线:(1) CFG 蒸馏将双分支推理合为单分支(2× 加速);(2) Restricted MeanFlow 步蒸馏进一步压缩采样步数(从 50 步到 10 步,约 5× 加速);(3) Learnable Feature Caching 用轻量预测器在蒸馏后的稀疏轨迹上进一步跳步推理。三级叠加最终实现 11.8× 加速。推理时每 \(N\) 步做一次完整 DiT 前向计算初始化缓存,中间 \(N-1\) 步仅用轻量预测器快速生成输出。
关键设计¶
-
Restricted MeanFlow(保守步蒸馏):
- 功能:将原始 50 步采样压缩到 10-20 步,同时保持生成质量稳定
- 核心思路:原始 MeanFlow 将平均速度区间 \(\mathcal{I}=(t-r)\) 采样至 \([0,1]\),目标是一步生成。Restricted MeanFlow 引入限制因子 \(\mathcal{R} \in (0,1)\),将区间约束为 \(\mathcal{I} \in [0, \mathcal{R}]\),直接剪掉压缩比过高的训练样本。实验中 \(\mathcal{R}=0.2\) 效果最佳
- 设计动机:大规模视频 DiT 的高复杂度导致 MeanFlow 中 JVP 运算的数值误差放大,而过大的时间区间(高压缩比)使误差进一步累积。与其强行学习全局平均速度,不如稳定地学习局部平均速度,通过多步串联实现高质量生成
-
Learnable Feature Caching(可学习特征缓存):
- 功能:在蒸馏后的稀疏采样轨迹上,用预测器替代完整 DiT 计算,进一步加速推理
- 核心思路:设计一个仅含 2 个 DiT Block 的轻量 Predictor \(\mathcal{P}\)(<4% 模型参数),接收上一步完整计算的缓存 \(\mathcal{C}\) 和当前噪声输入 \(x_{t'}\),预测当前步的平均速度输出。与 TaylorSeer 等需要维护多层多阶导数缓存(额外 33.5GB VRAM)不同,DisCa 仅保留最后一层的单个缓存张量(额外仅 0.43GB),学习能力替代了复杂缓存结构
- 设计动机:蒸馏后步间特征差异巨大,超出 Taylor 展开等手工方法的建模能力上限。数据驱动的神经网络天然适合捕捉这种高维非线性演化趋势
-
Memory-Efficient 缓存设计:
- 功能:大幅降低缓存的显存开销,使方法在高分辨率长视频场景中可用
- 核心思路:不再为 DiT 每层维护多张量缓存(如 TaylorSeer),仅保留模型最终输出的单个张量作为缓存传入 Predictor
- 设计动机:在实际分布式并行(sequence parallel size=4)环境下,多层缓存方案需要跨 GPU 同步缓存数据,通信开销反而抵消了计算节省。单张量缓存完全避免了这一问题
损失函数 / 训练策略¶
Predictor 训练采用 MSE + GAN 的两阶段策略:
- MSE 阶段(500 iter):最小化预测器输出与大模型真实输出的 L2 距离 $\(\mathcal{L}_\mathcal{P} = \mathbb{E}\|\mathcal{M}_{\theta_M}(x_{t'}, r', t') - \mathcal{P}_{\theta_p}(\mathcal{C}, x_{t'}, r', t')\|_2^2\)$
- GAN 阶段(1000 iter):引入多尺度谱归一化判别器 \(\mathcal{D}\),使用 Hinge Loss 进行对抗训练,强制预测器输出保留高频细节和视觉保真度。以大模型本身作为特征提取器 \(\mathcal{F}\),在特征空间进行对抗
- 超参:预测器学习率 \(10^{-4}\),判别器学习率 \(10^{-2}\),对抗损失权重 \(\lambda=1.0\)
实验关键数据¶
主实验¶
实验在 HunyuanVideo 上进行,生成 704×704 分辨率、129 帧、5 秒视频,使用 VBench 评测。
Restricted MeanFlow 对比(与原始 MeanFlow 基线比):
| 方法 | 步数 | 加速比 | 语义分↑ | 质量分↑ | 总分↑ |
|---|---|---|---|---|---|
| Original 50 步 | 50×2 | 1.0× | 73.5% | 81.5% | 79.9% |
| MeanFlow 20 步 | 20 | 4.96× | 66.6% | 81.8% | 78.8% |
| Restricted MeanFlow (R=0.2) 20 步 | 20 | 4.97× | 70.4% (+5.7%) | 81.8% | 79.5% |
| MeanFlow 10 步 | 10 | 9.68× | 60.9% | 80.6% | 76.7% |
| Restricted MeanFlow (R=0.2) 10 步 | 10 | 9.68× | 68.2% (+12.0%) | 81.3% | 78.7% |
DisCa 与现有加速方法全面对比:
| 方法 | 加速比 | Peak VRAM | 语义分↑ | 质量分↑ | 总分↑ |
|---|---|---|---|---|---|
| Original 50 步 | 1.0× | 99.23GB | 73.5% | 81.5% | 79.9% |
| Δ-DiT (N=8) | 4.55× | 97.68GB | 42.7% (-41.9%) | 70.9% | 65.2% |
| PAB (N=8) | 6.46× | 121.3GB | 56.3% (-23.4%) | 76.1% | 72.1% |
| TeaCache (l=0.4) | 9.22× | 97.70GB | 62.1% (-15.5%) | 78.7% | 75.4% |
| TaylorSeer (N=6) | 6.96× | 130.7GB | 63.7% (-13.3%) | 79.9% | 76.7% |
| FORA (N=6) | 8.01× | 124.6GB | 57.5% (-21.8%) | 76.4% | 72.6% |
| DisCa (R=0.2, N=2) | 7.56× | 97.64GB | 70.8% (-3.7%) | 81.9% | 79.7% |
| DisCa (R=0.2, N=3) | 8.84× | 97.64GB | 70.3% (-4.4%) | 81.8% | 79.5% |
| DisCa (R=0.2, N=4) | 11.8× | 97.64GB | 69.3% (-5.7%) | 81.1% | 78.8% |
消融实验¶
| Restricted MeanFlow | Learnable Predictor | GAN Training | 语义分↑ | 质量分↑ | 总分↑ |
|---|---|---|---|---|---|
| ✔ | ✔ | ✔ | 69.3% (+0.0%) | 81.1% (+0.0%) | 78.7% |
| ✘ | ✔ | ✔ | 65.2% (-5.9%) | 80.3% (-1.0%) | 77.3% |
| ✔ | ✘ | — | 67.3% (-2.9%) | 80.5% (-0.7%) | 77.9% |
| ✔ | ✔ | ✘ | 68.5% (-1.2%) | 81.0% (-0.1%) | 78.5% |
关键发现¶
- Restricted MeanFlow 是基石:不用 Restricted 直接在原始 MeanFlow 上训练缓存,语义分暴跌 5.9%,生成结果出现"完全不可接受的畸变"
- 可学习预测器 vs 免训练缓存:即使在 Restricted MeanFlow 加持下,免训练缓存仍损失 2.9% 语义分和 0.7% 质量分——高维特征演化确实需要学习才能捕捉
- GAN 训练不可或缺:去掉对抗训练语义分下降 1.2%,说明 MSE 损失+对抗损失的组合对保持语义保真度至关重要
- 显存效率优势明显:DisCa 仅需 97.64GB(额外 +0.43GB),而 TaylorSeer 需 130.7GB(+33.5GB)、FORA 需 124.6GB(+27.4GB)
亮点与洞察¶
- DisCa 首次证明步蒸馏和特征缓存可以互补而非冲突:关键在于用可学习预测器替代对步间冗余的硬性依赖,从而在蒸馏带来的稀疏采样轨迹上仍能有效加速。这为扩散模型加速开辟了"training-free + training-aware 协同"的新路线。
- Restricted MeanFlow 的设计极其朴素——仅仅限制训练时的时间区间采样范围——却在 10 步场景下带来 12.0% 的语义分提升。这揭示了一个重要直觉:对于大规模复杂模型的蒸馏,放弃极端压缩目标反而能获得全局更优的质量-速度权衡。
- 单张量缓存设计不仅节省显存,还在分布式并行环境下避免了跨 GPU 通信的延迟瓶颈,使得 DisCa 成为唯一在实际部署场景下同时满足显存和延迟约束的方案。
局限与展望¶
- 需要额外训练预测器和判别器(约 1500 iter),不再是完全免训练方案,每换一个基础模型或分辨率都需要重新训练
- 仅在 HunyuanVideo 上验证,对其他视频 DiT(CogVideoX、Wan 等)的迁移性未知
- 限制因子 \(\mathcal{R}\) 需要手动调参(实验中 0.2 最优),缺乏自适应选择策略
相关工作与启发¶
- vs TaylorSeer:TaylorSeer 用 Taylor 展开预测缓存特征,在蒸馏模型的稀疏轨迹上效果大幅下降(-13.3% 语义分)且显存开销巨大(+33.5GB)。DisCa 用可学习预测器解决了建模能力和显存两个瓶颈
- vs TeaCache:TeaCache 用时间步嵌入做自适应缓存决策,但在高加速比下仍损失 15.5% 语义分。DisCa 在更高加速比(11.8× vs 9.22×)下仅损失 5.7%
- vs MeanFlow:原始 MeanFlow 为一步生成设计,对大规模视频模型过于激进。Restricted MeanFlow 以极简的区间限制策略实现了稳定蒸馏
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次提出蒸馏兼容的可学习缓存框架,将两大加速路线统一
- 实验充分度: ⭐⭐⭐⭐⭐ 在 HunyuanVideo 上全面对比 6 种方法,消融清晰,显存/延迟分析完整
- 写作质量: ⭐⭐⭐⭐ 结构清晰、动机强,符号偏多但推导完整
- 价值: ⭐⭐⭐⭐⭐ 11.8× 近无损加速对视频生成实际部署价值极大
相关论文¶
- [CVPR 2026] I'm a Map! Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers
- [ICLR 2026] PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation
- [CVPR 2026] Generative Neural Video Compression via Video Diffusion Prior
- [CVPR 2026] DreamShot: Personalized Storyboard Synthesis with Video Diffusion Prior
- [CVPR 2026] Diff4Splat: Repurposing Video Diffusion Models for Dynamic Scene Generation