DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching¶

会议: CVPR 2026
arXiv: 2602.05449
代码: 即将公开
领域: 视频生成 / 扩散模型加速
关键词: 特征缓存, 步蒸馏, MeanFlow, 可学习预测器, HunyuanVideo

一句话总结¶

DisCa 首次将可学习特征缓存与步蒸馏统一为兼容框架，用轻量神经预测器（<4% 模型参数）替代手工缓存策略，配合 Restricted MeanFlow 稳定大规模视频 DiT 蒸馏，在 HunyuanVideo 上实现 11.8× 近无损加速。

研究背景与动机¶

领域现状：视频扩散模型（如 HunyuanVideo）生成质量已达 SOTA 水平，但推理极慢——以 HunyuanVideo 为例，50 步 CFG 推理生成一段 5 秒 704×704 视频需 1155 秒。现有加速手段主要有两条路线：减少采样步数的步蒸馏（如 MeanFlow），以及跳过冗余计算的特征缓存（如 TaylorSeer、TeaCache）。

现有痛点：步蒸馏方面，MeanFlow 在图像生成上表现优秀，但直接应用于大规模视频 DiT 时，JVP 运算的数值误差加上原始设计过于激进（目标一步生成），导致训练发散和严重伪影——10 步 MeanFlow 语义分直降 17.1%。特征缓存方面，传统方法依赖步间特征相似性进行复用或 Taylor 展开预测，但在步蒸馏后采样轨迹变得稀疏，相邻步特征差异剧增，简单手工策略完全失效——TaylorSeer 在高加速比场景下语义分也下降 13.3%。

核心矛盾：两种加速路线各有局限且难以兼容——蒸馏后的稀疏轨迹恰好破坏了缓存方法所依赖的步间冗余假设，简单叠加两者反而比单独使用更差。

本文目标 如何让步蒸馏和特征缓存两种加速策略真正兼容并互补，在大规模视频 DiT 上实现极致加速而不牺牲质量。

切入角度：用可学习的神经网络预测器替代手工缓存公式来捕捉高维特征演化；同时通过限制 MeanFlow 的压缩范围来稳定蒸馏过程。

核心 idea：蒸馏后的特征演化虽然超出 Taylor 展开等手工方法的建模能力，但轻量神经网络仍可准确学到这种高维演化规律。

方法详解¶

整体框架¶

DisCa 采用三级级联加速流水线：(1) CFG 蒸馏将双分支推理合为单分支（2× 加速）；(2) Restricted MeanFlow 步蒸馏进一步压缩采样步数（从 50 步到 10 步，约 5× 加速）；(3) Learnable Feature Caching 用轻量预测器在蒸馏后的稀疏轨迹上进一步跳步推理。三级叠加最终实现 11.8× 加速。推理时每 $N$ 步做一次完整 DiT 前向计算初始化缓存，中间 $N-1$ 步仅用轻量预测器快速生成输出。

关键设计¶

Restricted MeanFlow（保守步蒸馏）：
- 功能：将原始 50 步采样压缩到 10-20 步，同时保持生成质量稳定
- 核心思路：原始 MeanFlow 将平均速度区间 $\mathcal{I}=(t-r)$ 采样至 $[0,1]$，目标是一步生成。Restricted MeanFlow 引入限制因子 $\mathcal{R} \in (0,1)$，将区间约束为 $\mathcal{I} \in [0, \mathcal{R}]$，直接剪掉压缩比过高的训练样本。实验中 $\mathcal{R}=0.2$ 效果最佳
- 设计动机：大规模视频 DiT 的高复杂度导致 MeanFlow 中 JVP 运算的数值误差放大，而过大的时间区间（高压缩比）使误差进一步累积。与其强行学习全局平均速度，不如稳定地学习局部平均速度，通过多步串联实现高质量生成
Learnable Feature Caching（可学习特征缓存）：
- 功能：在蒸馏后的稀疏采样轨迹上，用预测器替代完整 DiT 计算，进一步加速推理
- 核心思路：设计一个仅含 2 个 DiT Block 的轻量 Predictor $\mathcal{P}$（<4% 模型参数），接收上一步完整计算的缓存 $\mathcal{C}$ 和当前噪声输入 $x_{t'}$，预测当前步的平均速度输出。与 TaylorSeer 等需要维护多层多阶导数缓存（额外 33.5GB VRAM）不同，DisCa 仅保留最后一层的单个缓存张量（额外仅 0.43GB），学习能力替代了复杂缓存结构
- 设计动机：蒸馏后步间特征差异巨大，超出 Taylor 展开等手工方法的建模能力上限。数据驱动的神经网络天然适合捕捉这种高维非线性演化趋势
Memory-Efficient 缓存设计：
- 功能：大幅降低缓存的显存开销，使方法在高分辨率长视频场景中可用
- 核心思路：不再为 DiT 每层维护多张量缓存（如 TaylorSeer），仅保留模型最终输出的单个张量作为缓存传入 Predictor
- 设计动机：在实际分布式并行（sequence parallel size=4）环境下，多层缓存方案需要跨 GPU 同步缓存数据，通信开销反而抵消了计算节省。单张量缓存完全避免了这一问题

损失函数 / 训练策略¶

Predictor 训练采用 MSE + GAN 的两阶段策略：

MSE 阶段（500 iter）：最小化预测器输出与大模型真实输出的 L2 距离 $$\mathcal{L}_\mathcal{P} = \mathbb{E}\|\mathcal{M}_{\theta_M}(x_{t'}, r', t') - \mathcal{P}_{\theta_p}(\mathcal{C}, x_{t'}, r', t')\|_2^2$$
GAN 阶段（1000 iter）：引入多尺度谱归一化判别器 $\mathcal{D}$，使用 Hinge Loss 进行对抗训练，强制预测器输出保留高频细节和视觉保真度。以大模型本身作为特征提取器 $\mathcal{F}$，在特征空间进行对抗
超参：预测器学习率 $10^{-4}$，判别器学习率 $10^{-2}$，对抗损失权重 $\lambda=1.0$

实验关键数据¶

主实验¶

实验在 HunyuanVideo 上进行，生成 704×704 分辨率、129 帧、5 秒视频，使用 VBench 评测。

Restricted MeanFlow 对比（与原始 MeanFlow 基线比）：

方法	步数	加速比	语义分↑	质量分↑	总分↑
Original 50 步	50×2	1.0×	73.5%	81.5%	79.9%
MeanFlow 20 步	20	4.96×	66.6%	81.8%	78.8%
Restricted MeanFlow (R=0.2) 20 步	20	4.97×	70.4% (+5.7%)	81.8%	79.5%
MeanFlow 10 步	10	9.68×	60.9%	80.6%	76.7%
Restricted MeanFlow (R=0.2) 10 步	10	9.68×	68.2% (+12.0%)	81.3%	78.7%

DisCa 与现有加速方法全面对比：

方法	加速比	Peak VRAM	语义分↑	质量分↑	总分↑
Original 50 步	1.0×	99.23GB	73.5%	81.5%	79.9%
Δ-DiT (N=8)	4.55×	97.68GB	42.7% (-41.9%)	70.9%	65.2%
PAB (N=8)	6.46×	121.3GB	56.3% (-23.4%)	76.1%	72.1%
TeaCache (l=0.4)	9.22×	97.70GB	62.1% (-15.5%)	78.7%	75.4%
TaylorSeer (N=6)	6.96×	130.7GB	63.7% (-13.3%)	79.9%	76.7%
FORA (N=6)	8.01×	124.6GB	57.5% (-21.8%)	76.4%	72.6%
DisCa (R=0.2, N=2)	7.56×	97.64GB	70.8% (-3.7%)	81.9%	79.7%
DisCa (R=0.2, N=3)	8.84×	97.64GB	70.3% (-4.4%)	81.8%	79.5%
DisCa (R=0.2, N=4)	11.8×	97.64GB	69.3% (-5.7%)	81.1%	78.8%

消融实验¶

Restricted MeanFlow	Learnable Predictor	GAN Training	语义分↑	质量分↑	总分↑
✔	✔	✔	69.3% (+0.0%)	81.1% (+0.0%)	78.7%
✘	✔	✔	65.2% (-5.9%)	80.3% (-1.0%)	77.3%
✔	✘	—	67.3% (-2.9%)	80.5% (-0.7%)	77.9%
✔	✔	✘	68.5% (-1.2%)	81.0% (-0.1%)	78.5%

关键发现¶

Restricted MeanFlow 是基石：不用 Restricted 直接在原始 MeanFlow 上训练缓存，语义分暴跌 5.9%，生成结果出现"完全不可接受的畸变"
可学习预测器 vs 免训练缓存：即使在 Restricted MeanFlow 加持下，免训练缓存仍损失 2.9% 语义分和 0.7% 质量分——高维特征演化确实需要学习才能捕捉
GAN 训练不可或缺：去掉对抗训练语义分下降 1.2%，说明 MSE 损失+对抗损失的组合对保持语义保真度至关重要
显存效率优势明显：DisCa 仅需 97.64GB（额外 +0.43GB），而 TaylorSeer 需 130.7GB（+33.5GB）、FORA 需 124.6GB（+27.4GB）

亮点与洞察¶

DisCa 首次证明步蒸馏和特征缓存可以互补而非冲突：关键在于用可学习预测器替代对步间冗余的硬性依赖，从而在蒸馏带来的稀疏采样轨迹上仍能有效加速。这为扩散模型加速开辟了"training-free + training-aware 协同"的新路线。
Restricted MeanFlow 的设计极其朴素——仅仅限制训练时的时间区间采样范围——却在 10 步场景下带来 12.0% 的语义分提升。这揭示了一个重要直觉：对于大规模复杂模型的蒸馏，放弃极端压缩目标反而能获得全局更优的质量-速度权衡。
单张量缓存设计不仅节省显存，还在分布式并行环境下避免了跨 GPU 通信的延迟瓶颈，使得 DisCa 成为唯一在实际部署场景下同时满足显存和延迟约束的方案。

局限与展望¶

需要额外训练预测器和判别器（约 1500 iter），不再是完全免训练方案，每换一个基础模型或分辨率都需要重新训练
仅在 HunyuanVideo 上验证，对其他视频 DiT（CogVideoX、Wan 等）的迁移性未知
限制因子 $\mathcal{R}$ 需要手动调参（实验中 0.2 最优），缺乏自适应选择策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出蒸馏兼容的可学习缓存框架，将两大加速路线统一
实验充分度: ⭐⭐⭐⭐⭐ 在 HunyuanVideo 上全面对比 6 种方法，消融清晰，显存/延迟分析完整
写作质量: ⭐⭐⭐⭐ 结构清晰、动机强，符号偏多但推导完整
价值: ⭐⭐⭐⭐⭐ 11.8× 近无损加速对视频生成实际部署价值极大