跳转至

HiAR: 基于层级去噪的高效自回归长视频生成

日期: 2026-03-09
arXiv: 2603.08703
代码: 项目主页
领域: 图像/视频生成
关键词: 长视频生成, 自回归扩散, 层级去噪, 误差累积, 流水线并行

一句话总结

提出 HiAR,一种层级去噪框架,颠倒传统自回归视频生成的顺序——在每个去噪步骤内对所有块进行因果生成而非逐块完成,使每块始终以相同噪声水平的上下文为条件,从而抑制误差累积并实现约 1.8× 加速,在 VBench 20s 生成中取得最佳总分和最低时间漂移。

研究背景与动机

  1. 现状:基于 DiT 的视频生成模型取得巨大进展,因果自回归(AR)生成因支持流式输出和无限延伸而成为长视频生成的主流方向。
  2. 核心矛盾:AR 生成需要维持时间连续性 vs 防止误差累积导致的质量退化(过饱和、过锐化、运动重复、语义漂移),两者存在根本冲突。
  3. 传统方案的陷阱:现有 AR 方法(如 Self-Forcing)通过高度干净的上下文(\(t_c = 0\),即完全去噪后的帧)来确保时间一致性,但这恰恰以最高置信度传播了预测误差。
  4. 双向扩散模型的启示:Wan2.1 等双向扩散模型在共享噪声水平下去噪所有帧,仍能产生时间连贯的视频——说明含噪上下文已足以提供连续性信号
  5. 核心 idea:不需要完全干净的上下文。将上下文噪声水平设为与当前块匹配(\(t_c^* = t_{j+1}\)),既满足时间因果性,又最大化地衰减传播偏差。

方法详解

整体框架

HiAR 颠倒传统 AR 的去噪顺序:不是逐块完全去噪再处理下一块,而是在每个去噪步骤内对所有块进行因果生成。在每步 \(j\),块 \(B_n\) 以噪声水平 \(t_{j+1}\) 的前序块为上下文,实现"匹配噪声级别"的条件生成。训练时结合因果自回归的 reverse-KL (DMD) 损失和双向注意力模式下的 forward-KL 正则化。

关键设计

模块 1:上下文噪声水平分析与匹配

  • 做什么:理论推导最优上下文噪声水平 \(t_c^*\)
  • 核心思路:上下文可分解为三项——真实信号 \((1-\sigma_{t_c})x_0\)、传播偏差 \((1-\sigma_{t_c})\delta\)、随机扰动 \(\sigma_{t_c}\eta\)\(t_c\) 越大,偏差衰减越多但有用信号也越少。时间因果性要求 \(\text{SNR}(t_c) \geq \text{SNR}(t_{j+1})\),即 \(t_c \leq t_{j+1}\)。最优点为约束边界:\(t_c^* = t_{j+1}\)
  • 设计动机\(t_c = 0\)(传统做法)传播全部预测误差无任何衰减;\(t_c^* = t_{j+1}\) 在保持时间因果性的前提下最大化偏差衰减

模块 2:层级去噪与流水线并行

  • 做什么:实现匹配噪声上下文的推理流程,并利用结构特性加速
  • 核心思路:在 \(N \times S\) 网格中,块 \(B_n\) 在步骤 \(j\) 仅依赖 \(B_{<n}\) 的步骤 \(j\) 结果和 \(B_n\) 的步骤 \(j-1\) 结果,同一反对角线上的块互相独立→可并行。进一步将 KV cache 更新和下一块去噪融合为单次前向传播
  • 设计动机:层级结构天然支持流水线并行,实现约 1.8× 加速(30 fps vs 17 fps)

模块 3:Forward-KL 正则化抑制低运动捷径

  • 做什么:解决自回归滚动训练中运动多样性坍塌问题
  • 核心思路:reverse-KL (DMD) 的 mode-seeking 性质使模型趋向生成低运动(易去噪、不易累积误差)的视频。引入 forward-KL 正则化:从教师模型采样密集去噪轨迹,让学生匹配这些轨迹的连续步骤
  • 设计动机:forward-KL 鼓励 mode-covering(覆盖教师分布的所有模式),保持运动多样性。关键设计选择:(a) 仅在双向注意力模式下计算(与 DMD 解耦),(b) 仅应用于前 \(K=1\) 个去噪步(运动由早期低频结构决定)

损失函数 / 训练策略

  • 总损失\(\mathcal{L} = \mathcal{L}_{DMD} + \lambda \mathcal{L}_{FKL}\)\(\lambda = 0.1\)
  • \(\mathcal{L}_{DMD}\):reverse-KL 蒸馏损失,因果注意力模式下的自回归滚动训练
  • \(\mathcal{L}_{FKL}\):forward-KL 正则化,双向注意力模式下监督,仅约束第 1 步
  • 基础模型:Wan2.1-1.3B,教师模型:Wan2.1-14B
  • 4 步去噪,学习率 2×10⁻⁶,batch size 64,训练 20k 步

实验关键数据

主实验:VBench 20s 视频生成

模型 吞吐量 (fps) Total↑ Quality↑ Semantic↑ Dynamic↑ Drift↓
Wan2.1-1.3B(双向) 0.78 0.802 0.813 0.766 0.690
CausVid 17 0.764 0.771 0.740 0.621 0.842
Self-Forcing 17 0.805 0.829 0.708 0.542 0.355
Causal Forcing 17 0.810 0.837 0.701 0.672 0.615
HiAR 30 0.821 0.846 0.723 0.686 0.257

消融实验

上下文噪声水平(Table 2 摘要):

上下文噪声 Quality↑ Semantic↑ Smooth↑ Drift↓
\(t_c = 0\)(传统) 较低 较低 较高 较高
\(t_c = t_{j+1}\)(匹配) 最高 最高 最低

Forward-KL 正则化(Table 3):

  • 无 FKL→运动多样性坍塌(Dynamic 显著降低)
  • FKL 在因果模式→与 DMD 干扰,效果不稳定
  • FKL 在双向模式(最终方案)→最佳 Dynamic 保持 + 最低 Drift

关键发现

  • HiAR 在所有对比方法中取得最高 VBench 总分 (0.821)最低 Drift (0.257)
  • Dynamic 得分 0.686 接近双向教师 Wan2.1 (0.690),远超 Self-Forcing (0.542),证明 forward-KL 有效保持了运动多样性
  • Drift 较 Self-Forcing 降低 27.6% (0.257 vs 0.355)
  • 实现 30 fps 吞吐量,比相同骨干/步数的其他蒸馏方法快 1.8×
  • CausVid 漂移最严重 (0.842),表现为后期帧明显色偏

亮点与洞察

  1. 颠覆性的简洁 insight:"不需要干净的上下文"——观察到双向模型在共享噪声水平下即可保持连贯,据此推导出最优条件 \(t_c^* = t_{j+1}\),理论推导优雅
  2. 层级→并行的自然转化:去噪顺序的改变不仅改善质量,还天然产生了加速机会,一举两得
  3. Forward-KL 正则化设计精妙:识别低运动捷径问题→双向/因果解耦→仅约束早期步骤,每个设计选择都有清晰理据
  4. 提出 Drift 评测指标:专门设计了长视频时间退化的评测方法(分段统计+线性拟合斜率),填补了评测空白

局限性 / 可改进方向

  1. 基础模型仅在 Wan2.1-1.3B 上验证,更大模型和其他架构的适用性有待探索
  2. 训练和推理都需要固定步数 \(S=4\),灵活步数的自适应方案未探索
  3. 流水线并行需要多 GPU 进程间通信,单 GPU 场景无法利用
  4. 20s 的评测长度仍有限,更长视频(分钟级)的稳定性需要验证
  5. Forward-KL 需要预先采样大量教师轨迹(20k×50 步),增加了训练准备成本

相关工作与启发

  • Self-Forcing:直接前身,提出自回归滚动训练但仍用 \(t_c=0\)
  • Diffusion Forcing:训练时使用异构噪声水平提升鲁棒性
  • DMD (Distribution Matching Distillation):reverse-KL 蒸馏框架
  • Wan2.1:基础模型,双向注意力版本提供了"共享噪声级别即可连贯"的关键观察
  • 启发:bias-information trade-off 的分析框架可推广到其他条件生成场景中的条件噪声选择

评分

  • ⭐⭐⭐⭐⭐ 新颖性:核心 insight 简洁深刻,理论推导与方法设计高度统一
  • ⭐⭐⭐⭐ 实验充分度:主实验+消融+定性对比全面,但仅 20s 评测长度稍显不足
  • ⭐⭐⭐⭐⭐ 写作质量:动机图 (Fig.1) 极其清晰,数学推导与直觉解释并重
  • ⭐⭐⭐⭐⭐ 价值:同时解决了 AR 长视频的质量退化和推理效率两大痛点