DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching¶
会议: CVPR 2026
arXiv: 2602.05449
代码: 即将公开
领域: 视频生成 / 扩散模型加速 / 特征缓存
关键词: 特征缓存, 步蒸馏, MeanFlow, 可学习预测器, HunyuanVideo
一句话总结¶
DisCa 首次提出"可学习特征缓存 + 步蒸馏"兼容的加速方案:用轻量神经预测器替代传统手工缓存策略,并通过 Restricted MeanFlow 稳定大规模视频模型的蒸馏,在 HunyuanVideo 上实现 11.8× 近无损加速。
背景与动机¶
视频扩散模型(如 HunyuanVideo)生成质量优秀但推理极慢。现有加速方案分两条路:(1) 步蒸馏(如 MeanFlow)——减少采样步数,但直接应用于大规模视频模型时训练不稳定、会崩溃;(2) 特征缓存(如 TaylorSeer)——免训练跳过冗余计算,但在蒸馏后的稀疏采样轨迹上效果大幅下降(相邻步之间差异太大,简单复用不可行)。两种方法各有局限且难以兼容。
核心问题¶
如何让步蒸馏和特征缓存两种加速方法兼容并互补?如何稳定大规模视频模型的蒸馏?
方法详解¶
整体框架¶
DisCa = Restricted MeanFlow(稳定的步蒸馏)+ Learnable Feature Caching(可学习特征缓存)。先用 CFG 蒸馏将双分支推理合为单分支(2× 加速),再用 Restricted MeanFlow 进一步压缩步数(约 5× 加速),最后用可学习预测器缓存进一步提速(最终 11.8×)。
关键设计¶
-
Restricted MeanFlow(保守步蒸馏): 原始 MeanFlow 目标是一步生成,对大规模视频 DiT 过于激进——JVP 运算的数值误差导致训练发散和严重伪影。解决方案:限制平均速度的采样区间 \(\mathcal{I} = (t-r) \in [0, \mathcal{R}]\),其中 \(\mathcal{R} \in (0,1)\)(如 0.2),直接剪掉压缩比过高的训练样本。效果:20 步生成语义分数比原始 MeanFlow 高 5.4%(VBench),10 步高 12.0%。
-
Learnable Feature Caching(可学习特征缓存): 蒸馏后各步之间特征差异太大,传统缓存策略(复用/Taylor 展开)无法捕捉高维特征的演化趋势。解决:用一个轻量神经预测器 \(\mathcal{P}\)(仅 2 个 DiT Block,< 4% 模型大小)。推理时每 N 步做一次完整 DiT 计算初始化缓存,中间 N-1 步用预测器快速预测。训练用 MSE 损失 + 对抗训练(多尺度判别器 + Hinge Loss),使预测器输出保留高频细节和视觉保真度。
-
Memory-Efficient 缓存: 与 TaylorSeer 等需要多层多阶导数缓存不同(额外占用 33.49GB VRAM),DisCa 只保留最后一层的单个缓存张量(额外仅 0.43GB),关键在于预测器的学习能力替代了复杂缓存结构。
损失函数 / 训练策略¶
预测器训练:\(\mathcal{L}_\mathcal{P} = \|\mathcal{M}(x_{t'}) - \mathcal{P}(\mathcal{C}, x_{t'})\|^2 + \lambda \cdot \mathcal{L}_{GAN}\)。先 MSE 初始化 500 iter,再 GAN 训练 1000 iter。判别器学习率 1e-2,预测器学习率 1e-4。
实验关键数据¶
| 方法 | 加速比 | VBench 语义分↑ | VBench 质量分↑ | VBench 总分↑ | 额外VRAM |
|---|---|---|---|---|---|
| HunyuanVideo 原始 50 步 | 1.0× | 73.5% | 81.5% | 79.9% | — |
| MeanFlow 10 步 | 9.68× | 60.9% (-17.1%) | 80.6% | 76.7% | 0 |
| TaylorSeer | 6.96× | 63.7% (-13.3%) | 79.9% | 76.7% | +33.5GB |
| TeaCache | 9.22× | 62.1% (-15.5%) | 78.7% | 75.4% | +0.5GB |
| DisCa (ours) | 11.8× | 69.3% (-5.7%) | 81.1% | 78.8% | +0.4GB |
在 7.56× 加速时,语义分仅下降 3.7%,几乎无损。
消融实验要点¶
- Restricted MeanFlow 关键: 不用 Restricted 而用原始 MeanFlow,语义分下降 5.9%——"完全不可接受的畸变"
- 可学习预测器 vs 免训练缓存: 免训练方案即使配合 Restricted MeanFlow 也会损失 2.9% 语义分
- GAN 训练: 去掉 GAN 训练语义分下降 1.2%,说明对抗训练对保留语义细节很关键
- 限制因子 R: R=0.2 效果最好,R 越大蒸馏越激进、质量越差
亮点¶
- 首次将步蒸馏和特征缓存两大加速路线统一为兼容框架,开辟了新的加速路径
- Restricted MeanFlow 的设计非常朴素但有效——直接剪掉过度压缩的训练样本就显著提升稳定性
- 可学习预测器只有 <4% 模型大小,额外 VRAM 仅 0.43GB,却能在稀疏采样轨迹上准确预测
- 在实际分布式并行环境下分析了缓存架构对真实延迟的影响——多层缓存方案在并行环境下反而更慢
局限性 / 可改进方向¶
- 需要额外训练预测器和判别器,不再是完全免训练
- 目前仅在 HunyuanVideo 上验证,是否能迁移到其他视频 DiT(如 CogVideoX、Wan)待确认
- 限制因子 R 需要人工调参
- 预测器目前固定为 2 个 DiT Block,对不同加速比的自适应调整策略未探索
与相关工作的对比¶
- vs TaylorSeer: TaylorSeer 用 Taylor 展开预测缓存特征,在蒸馏模型上效果差(步间差异太大)且 VRAM 开销大(+33GB)。DisCa 用可学习预测器解决了这两个问题
- vs TeaCache: TeaCache 用时间步嵌入做自适应缓存,但在高压缩比下语义损失仍大(15.5%)。DisCa 在更高加速比下仅损失 5.7%
- vs MeanFlow: 原始 MeanFlow 在视频模型上不稳定(畸变严重),Restricted MeanFlow 通过保守策略解决
启发与关联¶
- "用神经网络预测缓存特征"的范式可以迁移到任何需要缓存加速的迭代推理系统
- Restricted MeanFlow 的"剪枝过度压缩"策略对其他蒸馏/压缩任务有参考价值——有时放弃极端压缩反而获得更好的质量-速度权衡
- 可以考虑将可学习预测器与图像扩散模型结合(如 FLUX、SANA),实现更极致的单步生成
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次实现蒸馏+缓存兼容,可学习预测器替代手工缓存策略
- 实验充分度: ⭐⭐⭐⭐⭐ HunyuanVideo 上的全面评测 + 丰富消融 + VRAM/延迟分析 + 分布式并行讨论
- 写作质量: ⭐⭐⭐⭐ 整体清晰,但符号稍多
- 价值: ⭐⭐⭐⭐⭐ 11.8× 近无损加速对实际视频生成部署意义重大