HiAR: 基于层级去噪的高效自回归长视频生成¶

日期: 2026-03-09
arXiv: 2603.08703
代码: 项目主页
领域: 图像/视频生成
关键词: 长视频生成, 自回归扩散, 层级去噪, 误差累积, 流水线并行

一句话总结¶

提出 HiAR，一种层级去噪框架，颠倒传统自回归视频生成的顺序——在每个去噪步骤内对所有块进行因果生成而非逐块完成，使每块始终以相同噪声水平的上下文为条件，从而抑制误差累积并实现约 1.8× 加速，在 VBench 20s 生成中取得最佳总分和最低时间漂移。

研究背景与动机¶

现状：基于 DiT 的视频生成模型取得巨大进展，因果自回归（AR）生成因支持流式输出和无限延伸而成为长视频生成的主流方向。
核心矛盾：AR 生成需要维持时间连续性 vs 防止误差累积导致的质量退化（过饱和、过锐化、运动重复、语义漂移），两者存在根本冲突。
传统方案的陷阱：现有 AR 方法（如 Self-Forcing）通过高度干净的上下文（\(t_c = 0\)，即完全去噪后的帧）来确保时间一致性，但这恰恰以最高置信度传播了预测误差。
双向扩散模型的启示：Wan2.1 等双向扩散模型在共享噪声水平下去噪所有帧，仍能产生时间连贯的视频——说明含噪上下文已足以提供连续性信号。
核心 idea：不需要完全干净的上下文。将上下文噪声水平设为与当前块匹配（\(t_c^* = t_{j+1}\)），既满足时间因果性，又最大化地衰减传播偏差。

方法详解¶

整体框架¶

HiAR 颠倒传统 AR 的去噪顺序：不是逐块完全去噪再处理下一块，而是在每个去噪步骤内对所有块进行因果生成。在每步 \(j\)，块 \(B_n\) 以噪声水平 \(t_{j+1}\) 的前序块为上下文，实现"匹配噪声级别"的条件生成。训练时结合因果自回归的 reverse-KL (DMD) 损失和双向注意力模式下的 forward-KL 正则化。

关键设计¶

模块 1：上下文噪声水平分析与匹配

做什么：理论推导最优上下文噪声水平 \(t_c^*\)
核心思路：上下文可分解为三项——真实信号 \((1-\sigma_{t_c})x_0\)、传播偏差 \((1-\sigma_{t_c})\delta\)、随机扰动 \(\sigma_{t_c}\eta\)。\(t_c\) 越大，偏差衰减越多但有用信号也越少。时间因果性要求 \(\text{SNR}(t_c) \geq \text{SNR}(t_{j+1})\)，即 \(t_c \leq t_{j+1}\)。最优点为约束边界：\(t_c^* = t_{j+1}\)
设计动机：\(t_c = 0\)（传统做法）传播全部预测误差无任何衰减；\(t_c^* = t_{j+1}\) 在保持时间因果性的前提下最大化偏差衰减

模块 2：层级去噪与流水线并行

做什么：实现匹配噪声上下文的推理流程，并利用结构特性加速
核心思路：在 \(N \times S\) 网格中，块 \(B_n\) 在步骤 \(j\) 仅依赖 \(B_{<n}\) 的步骤 \(j\) 结果和 \(B_n\) 的步骤 \(j-1\) 结果，同一反对角线上的块互相独立→可并行。进一步将 KV cache 更新和下一块去噪融合为单次前向传播
设计动机：层级结构天然支持流水线并行，实现约 1.8× 加速（30 fps vs 17 fps）

模块 3：Forward-KL 正则化抑制低运动捷径

做什么：解决自回归滚动训练中运动多样性坍塌问题
核心思路：reverse-KL (DMD) 的 mode-seeking 性质使模型趋向生成低运动（易去噪、不易累积误差）的视频。引入 forward-KL 正则化：从教师模型采样密集去噪轨迹，让学生匹配这些轨迹的连续步骤
设计动机：forward-KL 鼓励 mode-covering（覆盖教师分布的所有模式），保持运动多样性。关键设计选择：(a) 仅在双向注意力模式下计算（与 DMD 解耦），(b) 仅应用于前 \(K=1\) 个去噪步（运动由早期低频结构决定）

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \mathcal{L}_{DMD} + \lambda \mathcal{L}_{FKL}\)，\(\lambda = 0.1\)
\(\mathcal{L}_{DMD}\)：reverse-KL 蒸馏损失，因果注意力模式下的自回归滚动训练
\(\mathcal{L}_{FKL}\)：forward-KL 正则化，双向注意力模式下监督，仅约束第 1 步
基础模型：Wan2.1-1.3B，教师模型：Wan2.1-14B
4 步去噪，学习率 2×10⁻⁶，batch size 64，训练 20k 步

实验关键数据¶

主实验：VBench 20s 视频生成¶

模型	吞吐量 (fps)	Total↑	Quality↑	Semantic↑	Dynamic↑	Drift↓
Wan2.1-1.3B（双向）	0.78	0.802	0.813	0.766	0.690	—
CausVid	17	0.764	0.771	0.740	0.621	0.842
Self-Forcing	17	0.805	0.829	0.708	0.542	0.355
Causal Forcing	17	0.810	0.837	0.701	0.672	0.615
HiAR	30	0.821	0.846	0.723	0.686	0.257

消融实验¶

上下文噪声水平（Table 2 摘要）：

上下文噪声	Quality↑	Semantic↑	Smooth↑	Drift↓
\(t_c = 0\)（传统）	较低	较低	较高	较高
\(t_c = t_{j+1}\)（匹配）	最高	最高	高	最低

Forward-KL 正则化（Table 3）：

无 FKL→运动多样性坍塌（Dynamic 显著降低）
FKL 在因果模式→与 DMD 干扰，效果不稳定
FKL 在双向模式（最终方案）→最佳 Dynamic 保持 + 最低 Drift

关键发现¶

HiAR 在所有对比方法中取得最高 VBench 总分 (0.821) 和最低 Drift (0.257)
Dynamic 得分 0.686 接近双向教师 Wan2.1 (0.690)，远超 Self-Forcing (0.542)，证明 forward-KL 有效保持了运动多样性
Drift 较 Self-Forcing 降低 27.6% (0.257 vs 0.355)
实现 30 fps 吞吐量，比相同骨干/步数的其他蒸馏方法快 1.8×
CausVid 漂移最严重 (0.842)，表现为后期帧明显色偏

亮点与洞察¶

颠覆性的简洁 insight："不需要干净的上下文"——观察到双向模型在共享噪声水平下即可保持连贯，据此推导出最优条件 \(t_c^* = t_{j+1}\)，理论推导优雅
层级→并行的自然转化：去噪顺序的改变不仅改善质量，还天然产生了加速机会，一举两得
Forward-KL 正则化设计精妙：识别低运动捷径问题→双向/因果解耦→仅约束早期步骤，每个设计选择都有清晰理据
提出 Drift 评测指标：专门设计了长视频时间退化的评测方法（分段统计+线性拟合斜率），填补了评测空白

局限性 / 可改进方向¶

基础模型仅在 Wan2.1-1.3B 上验证，更大模型和其他架构的适用性有待探索
训练和推理都需要固定步数 \(S=4\)，灵活步数的自适应方案未探索
流水线并行需要多 GPU 进程间通信，单 GPU 场景无法利用
20s 的评测长度仍有限，更长视频（分钟级）的稳定性需要验证
Forward-KL 需要预先采样大量教师轨迹（20k×50 步），增加了训练准备成本

评分¶

⭐⭐⭐⭐⭐ 新颖性：核心 insight 简洁深刻，理论推导与方法设计高度统一
⭐⭐⭐⭐ 实验充分度：主实验+消融+定性对比全面，但仅 20s 评测长度稍显不足
⭐⭐⭐⭐⭐ 写作质量：动机图 (Fig.1) 极其清晰，数学推导与直觉解释并重
⭐⭐⭐⭐⭐ 价值：同时解决了 AR 长视频的质量退化和推理效率两大痛点