From Slow Bidirectional to Fast Autoregressive Video Diffusion Models¶

会议: CVPR 2025
arXiv: 2412.07772
代码: https://causvid.github.io/ (项目页+代码)
领域: 扩散模型
关键词: 视频生成, 自回归扩散, 蒸馏, KV缓存, 实时视频

一句话总结¶

CausVid 通过非对称蒸馏将预训练的双向视频扩散 Transformer 蒸馏为因果自回归 4 步生成器，结合 ODE 初始化和 KV 缓存，实现 9.4 FPS 的流式视频生成（比 CogVideoX 快 160×），在 VBench-Long 基准上以 84.27 分排名第一。

研究背景与动机¶

领域现状：当前最先进的视频扩散模型（如 CogVideoX、MovieGen）基于 Diffusion Transformer (DiT) 架构，使用双向注意力在所有帧之间建立依赖关系。这类模型生成质量出色，但存在严重的延迟问题——生成单帧也需要处理整个视频序列，且需要数十步去噪迭代。

现有痛点：(1) 高延迟：双向依赖导致必须等整个视频生成完才能看到任何结果（CogVideoX 生成 128 帧需要 208 秒）；(2) 无法交互：当前帧的生成依赖未来帧的条件输入，无法响应实时用户输入；(3) 长度限制：计算和内存成本随帧数二次增长，长视频生成代价极高。

核心矛盾：自回归模型可解决延迟和交互问题，但面临严重的误差累积——每帧基于可能有缺陷的前序帧生成，误差随时间放大，且现有自回归视频模型的质量显著落后于双向模型。

本文目标 如何将双向视频扩散模型的质量优势转移到自回归架构中，同时实现快速流式生成和抵抗误差累积？

切入角度：作者观察到可以利用 Distribution Matching Distillation (DMD) 的灵活性——DMD 的监督在分布层面而非轨迹层面，允许教师和学生使用不同架构。这意味着可以用双向教师监督因果学生，让学生同时获得双向模型的质量和因果模型的效率。

核心 idea：用非对称 DMD 蒸馏将多步双向视频扩散模型蒸馏为 4 步因果自回归生成器，以 ODE 初始化稳定训练，通过 KV 缓存实现流式推理。

方法详解¶

整体框架¶

CausVid 的 pipeline：(1) 用 3D VAE 将视频压缩到潜在空间（每 16 帧 → 5 帧潜在帧为一个 chunk）；(2) 在潜在空间中，因果扩散 Transformer 按 chunk 自回归生成——当前 chunk 内使用双向注意力（保持局部时间一致性），chunk 间使用因果注意力（防止依赖未来帧）；(3) 训练分两阶段：先用教师 ODE 轨迹初始化学生，再用非对称 DMD 损失蒸馏；(4) 推理时用 KV 缓存高效流式生成。

关键设计¶

Block-wise Causal Attention（块级因果注意力架构）:
- 功能：将双向 DiT 改造为支持自回归生成的因果架构，同时保持 chunk 内的时间一致性
- 核心思路：定义注意力掩码 \(M_{i,j} = 1\) 当 \(\lfloor j/k \rfloor \leq \lfloor i/k \rfloor\)，其中 \(k\) 是 chunk 大小。即同一 chunk 内的帧可以互相注意（双向），但不能注意到未来 chunk 的帧。类似 decoder-only LLM，在每次迭代中可以利用所有输入帧的监督信号。训练时采用 Diffusion Forcing 策略——每个 chunk 有独立的噪声时间步 \(t^i\)。
- 设计动机：纯帧级因果注意力会丧失局部时间一致性，而 3D VAE 需要一整个 chunk 的潜在帧才能解码像素，块级因果不增加额外延迟。从预训练双向模型初始化权重可加速收敛。
Asymmetric Distillation（非对称蒸馏）:
- 功能：将多步双向教师模型蒸馏为 4 步因果学生模型，使学生获得教师级别的质量并有效抑制误差累积
- 核心思路：基于 DMD2 框架，教师 \(s_{data}\) 使用双向注意力，学生 \(G_\phi\) 使用因果注意力。训练时学生对含噪视频帧做 4 步去噪预测，然后用 DMD loss 对齐学生输出分布和数据分布。核心梯度公式：\(\nabla_\phi \mathcal{L}_{DMD} \approx -\mathbb{E}_t[(s_{data} - s_{gen,\xi}) \cdot \frac{dG_\phi}{d\phi}]\)，其中 \(s_{gen,\xi}\) 是在学生输出上在线训练的 score function。使用 two time-scale update rule（比率 5）交替更新学生和生成器 score function。
- 设计动机：直接从因果教师蒸馏会继承因果模型的缺陷（质量低、误差累积）。DMD 的分布级监督允许教师和学生使用不同架构——双向教师提供了更高质量的分布目标。实验证明非对称蒸馏的因果学生甚至超越了多步因果模型的质量。
ODE-based Student Initialization（ODE 初始化）:
- 功能：在蒸馏前用教师的 ODE 轨迹预训练学生，稳定后续 DMD 训练的收敛
- 核心思路：先用双向教师生成 1000 组 ODE 轨迹对（从纯噪声到清晰视频的完整路径），取与学生推理时间步匹配的子集。学生用回归损失在这些轨迹对上预训练 3000 迭代：\(\mathcal{L}_{init} = \mathbb{E}[\|G_\phi(\{x_{t^i}\}, \{t^i\}) - \{x_0^i\}\|^2]\)。
- 设计动机：由于架构差异（双向 vs 因果），直接用 DMD 损失训练会不稳定。ODE 初始化给学生提供了一个合理的起始点——它已经大致知道如何从噪声映射到清晰视频，后续 DMD 训练只需在此基础上微调分布匹配。

损失函数 / 训练策略¶

两阶段训练：(1) ODE 初始化阶段用 MSE 回归损失，训练 3000 步，学习率 \(5 \times 10^{-6}\)；(2) 非对称 DMD 蒸馏阶段用 DMD loss + 在线 score function 训练，6000 步，学习率 \(2 \times 10^{-6}\)，guidance scale 3.5。全部训练在 64 块 H100 上约 2 天完成。推理时使用均匀时间步 [999, 748, 502, 247] 进行 4 步去噪。

实验关键数据¶

主实验¶

方法	视频长度	Temporal Quality↑	Frame Quality↑	Text Alignment↑	延迟(s)↓	吞吐(FPS)↑
CogVideoX-5B	6s	89.9	59.8	29.1	208.6	0.6
MovieGen	10s	91.5	61.1	28.8	-	-
Pyramid Flow	10s	89.6	55.9	27.1	6.7	2.5
CausVid (Ours)	10s	94.7	64.4	30.1	1.3	9.4

长视频（30s）：

方法	Temporal Quality↑	Frame Quality↑	Text Alignment↑
FIFO-Diffusion	93.1	57.9	29.9
Pyramid Flow	89.0	48.3	24.4
CausVid (Ours)	94.9	63.4	28.9

消融实验¶

配置	Causal?	#步	Temporal↑	Frame↑	Text↑
双向教师	✗	100	94.6	62.7	29.6
因果微调	✓	100	92.4	60.1	28.5
ODE init + 无教师蒸馏	✓	4	92.9	48.1	25.3
ODE init + 因果教师	✓	4	91.9	61.7	28.2
ODE init + 双向教师	✓	4	94.7	64.4	30.1

关键发现¶

非对称蒸馏是关键突破：因果教师蒸馏 (91.9) 远不如双向教师蒸馏 (94.7)。4 步因果学生的 Temporal Quality 甚至超越了 100 步双向教师 (94.7 vs 94.6)
DMD 有效抑制误差累积：100 步因果模型在 30s 视频中严重退化（Fig.8 橙线），但经 DMD 蒸馏的 4 步因果学生保持稳定质量（蓝线）
ODE 初始化不可或缺：没有 ODE 初始化直接用 DMD 训练不稳定，有 ODE 初始化后 Frame Quality 从 48.1 提升到 64.4
延迟降低 160×（208.6s → 1.3s），吞吐提升 16×（0.6 → 9.4 FPS）
人类偏好研究中 CausVid 一致优于 MovieGen、CogVideoX、Pyramid Flow（胜率 >50%）

亮点与洞察¶

非对称蒸馏的核心洞察——DMD 的分布级监督允许教师和学生使用不同架构，这打破了"蒸馏=架构一致"的常规假设。双向教师→因果学生的路径让学生获得了教师的质量优势和自身的效率优势，可推广到任何需要改变推理特性的蒸馏场景
蒸馏可以反过来解决误差累积：这是一个反直觉的发现——4 步蒸馏学生比 100 步因果教师的误差累积更小，原因是 DMD 在分布层面对齐而非逐帧回归，且双向教师的全局一致性知识在蒸馏中传递给了学生
KV 缓存 + 块级因果注意力的组合使视频扩散模型首次实现了类似 LLM 的流式生成范式

局限与展望¶

极长视频（>10 分钟）仍有质量退化，误差累积策略需要进一步改进
受限于 3D VAE 设计，必须生成 5 帧潜在帧后才能解码像素，帧级 VAE 可进一步降低延迟
基于反向 KL 的 DMD 目标可能降低输出多样性，可考虑 EM-Distillation 等替代方案
当前分辨率 352×640 较低，扩展到更高分辨率需要更多工程优化
视频-视频翻译和图像-视频功能均为零样本，专门微调可能进一步提升质量

评分¶

新颖性: ⭐⭐⭐⭐⭐ 非对称蒸馏（双向→因果）是全新范式，蒸馏解决误差累积的发现反直觉且重要
实验充分度: ⭐⭐⭐⭐⭐ VBench 全面评估+人类偏好+长视频+消融+多应用场景，非常充分
写作质量: ⭐⭐⭐⭐ 结构清晰，算法伪代码完整，消融研究组织良好
价值: ⭐⭐⭐⭐⭐ 首个在质量上匹配双向模型的自回归视频生成方法，VBench-Long 第一名，160× 加速具有巨大实用价值