DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching¶

会议: CVPR 2026
arXiv: 2602.05449
代码: 即将公开
领域: 视频生成 / 扩散模型加速 / 特征缓存
关键词: 特征缓存, 步蒸馏, MeanFlow, 可学习预测器, HunyuanVideo

一句话总结¶

DisCa 首次提出"可学习特征缓存 + 步蒸馏"兼容的加速方案：用轻量神经预测器替代传统手工缓存策略，并通过 Restricted MeanFlow 稳定大规模视频模型的蒸馏，在 HunyuanVideo 上实现 11.8× 近无损加速。

背景与动机¶

视频扩散模型（如 HunyuanVideo）生成质量优秀但推理极慢。现有加速方案分两条路：(1) 步蒸馏（如 MeanFlow）——减少采样步数，但直接应用于大规模视频模型时训练不稳定、会崩溃；(2) 特征缓存（如 TaylorSeer）——免训练跳过冗余计算，但在蒸馏后的稀疏采样轨迹上效果大幅下降（相邻步之间差异太大，简单复用不可行）。两种方法各有局限且难以兼容。

核心问题¶

如何让步蒸馏和特征缓存两种加速方法兼容并互补？如何稳定大规模视频模型的蒸馏？

方法详解¶

整体框架¶

DisCa = Restricted MeanFlow（稳定的步蒸馏）+ Learnable Feature Caching（可学习特征缓存）。先用 CFG 蒸馏将双分支推理合为单分支（2× 加速），再用 Restricted MeanFlow 进一步压缩步数（约 5× 加速），最后用可学习预测器缓存进一步提速（最终 11.8×）。

关键设计¶

Restricted MeanFlow（保守步蒸馏）: 原始 MeanFlow 目标是一步生成，对大规模视频 DiT 过于激进——JVP 运算的数值误差导致训练发散和严重伪影。解决方案：限制平均速度的采样区间 \(\mathcal{I} = (t-r) \in [0, \mathcal{R}]\)，其中 \(\mathcal{R} \in (0,1)\)（如 0.2），直接剪掉压缩比过高的训练样本。效果：20 步生成语义分数比原始 MeanFlow 高 5.4%（VBench），10 步高 12.0%。
Learnable Feature Caching（可学习特征缓存）: 蒸馏后各步之间特征差异太大，传统缓存策略（复用/Taylor 展开）无法捕捉高维特征的演化趋势。解决：用一个轻量神经预测器 \(\mathcal{P}\)（仅 2 个 DiT Block，< 4% 模型大小）。推理时每 N 步做一次完整 DiT 计算初始化缓存，中间 N-1 步用预测器快速预测。训练用 MSE 损失 + 对抗训练（多尺度判别器 + Hinge Loss），使预测器输出保留高频细节和视觉保真度。
Memory-Efficient 缓存: 与 TaylorSeer 等需要多层多阶导数缓存不同（额外占用 33.49GB VRAM），DisCa 只保留最后一层的单个缓存张量（额外仅 0.43GB），关键在于预测器的学习能力替代了复杂缓存结构。

损失函数 / 训练策略¶

预测器训练：\(\mathcal{L}_\mathcal{P} = \|\mathcal{M}(x_{t'}) - \mathcal{P}(\mathcal{C}, x_{t'})\|^2 + \lambda \cdot \mathcal{L}_{GAN}\)。先 MSE 初始化 500 iter，再 GAN 训练 1000 iter。判别器学习率 1e-2，预测器学习率 1e-4。

实验关键数据¶

方法	加速比	VBench 语义分↑	VBench 质量分↑	VBench 总分↑	额外VRAM
HunyuanVideo 原始 50 步	1.0×	73.5%	81.5%	79.9%	—
MeanFlow 10 步	9.68×	60.9% (-17.1%)	80.6%	76.7%	0
TaylorSeer	6.96×	63.7% (-13.3%)	79.9%	76.7%	+33.5GB
TeaCache	9.22×	62.1% (-15.5%)	78.7%	75.4%	+0.5GB
DisCa (ours)	11.8×	69.3% (-5.7%)	81.1%	78.8%	+0.4GB

在 7.56× 加速时，语义分仅下降 3.7%，几乎无损。

消融实验要点¶

Restricted MeanFlow 关键: 不用 Restricted 而用原始 MeanFlow，语义分下降 5.9%——"完全不可接受的畸变"
可学习预测器 vs 免训练缓存: 免训练方案即使配合 Restricted MeanFlow 也会损失 2.9% 语义分
GAN 训练: 去掉 GAN 训练语义分下降 1.2%，说明对抗训练对保留语义细节很关键
限制因子 R: R=0.2 效果最好，R 越大蒸馏越激进、质量越差

亮点¶

首次将步蒸馏和特征缓存两大加速路线统一为兼容框架，开辟了新的加速路径
Restricted MeanFlow 的设计非常朴素但有效——直接剪掉过度压缩的训练样本就显著提升稳定性
可学习预测器只有 <4% 模型大小，额外 VRAM 仅 0.43GB，却能在稀疏采样轨迹上准确预测
在实际分布式并行环境下分析了缓存架构对真实延迟的影响——多层缓存方案在并行环境下反而更慢

局限性 / 可改进方向¶

需要额外训练预测器和判别器，不再是完全免训练
目前仅在 HunyuanVideo 上验证，是否能迁移到其他视频 DiT（如 CogVideoX、Wan）待确认
限制因子 R 需要人工调参
预测器目前固定为 2 个 DiT Block，对不同加速比的自适应调整策略未探索

与相关工作的对比¶

vs TaylorSeer: TaylorSeer 用 Taylor 展开预测缓存特征，在蒸馏模型上效果差（步间差异太大）且 VRAM 开销大（+33GB）。DisCa 用可学习预测器解决了这两个问题
vs TeaCache: TeaCache 用时间步嵌入做自适应缓存，但在高压缩比下语义损失仍大（15.5%）。DisCa 在更高加速比下仅损失 5.7%
vs MeanFlow: 原始 MeanFlow 在视频模型上不稳定（畸变严重），Restricted MeanFlow 通过保守策略解决

启发与关联¶

"用神经网络预测缓存特征"的范式可以迁移到任何需要缓存加速的迭代推理系统
Restricted MeanFlow 的"剪枝过度压缩"策略对其他蒸馏/压缩任务有参考价值——有时放弃极端压缩反而获得更好的质量-速度权衡
可以考虑将可学习预测器与图像扩散模型结合（如 FLUX、SANA），实现更极致的单步生成

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次实现蒸馏+缓存兼容，可学习预测器替代手工缓存策略
实验充分度: ⭐⭐⭐⭐⭐ HunyuanVideo 上的全面评测 + 丰富消融 + VRAM/延迟分析 + 分布式并行讨论
写作质量: ⭐⭐⭐⭐ 整体清晰，但符号稍多
价值: ⭐⭐⭐⭐⭐ 11.8× 近无损加速对实际视频生成部署意义重大