Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation¶
会议: NeurIPS 2025
arXiv: 2506.09350
代码: https://seaweed-apt.com/2
领域: 扩散模型 / 视频生成
关键词: 对抗训练, 自回归视频生成, 实时交互, 一步生成, KV缓存
一句话总结¶
本文提出 AAPT(Autoregressive Adversarial Post-Training),通过对抗训练将预训练视频扩散模型转化为自回归实时视频生成器,每帧仅需一次前向传播(1NFE),基于 student-forcing 训练减少误差累积,8B 模型在单张 H100 上实现 736×416 分辨率 24fps 实时流式生成,最长可达一分钟(1440帧)。
研究背景与动机¶
领域现状:视频生成领域的基础模型(如 Wan2.1、HunyuanVideo、Seaweed)已经能生成高质量短视频,但计算成本极高。交互式视频生成(如游戏引擎、世界模拟器)要求模型实时响应用户输入并持续生成连贯视频,这对速度和延迟提出了极高要求。
现有痛点:(1) 扩散模型需要多步去噪,即使蒸馏到 4-8 步仍然不够快;(2) Diffusion Forcing 方法虽然引入因果注意力和 KV 缓存,但在一步生成场景下效率不高——每个自回归步需计算两帧(当前帧和噪声帧);(3) 现有方法训练窗口有限(通常 5 秒),长视频生成时误差迅速累积;(4) CausVid(当前最优)在单 H100 上仅能达到 640×352 分辨率 9.4fps。
核心矛盾:实时交互需要极低延迟和高吞吐,但高质量视频生成本质上计算密集。Teacher-forcing 训练导致训练-推理分布不匹配,在自回归场景下误差快速累积。长视频训练数据(>10秒单镜头)在大多数数据集中极其稀少。
本文目标:(1) 实现单步、逐帧的实时视频生成;(2) 支持分钟级长视频流式生成而不崩溃;(3) 支持交互式控制(姿态、相机)。
切入角度:对抗训练天然适合一步生成(无需配对目标),且 student-forcing 在对抗训练中自然实现——生成器的实际输出直接反馈为下一步输入,判别器评估整段生成结果。
核心 idea:将视频扩散模型通过"扩散适应→一致性蒸馏→对抗训练"三阶段转化为自回归一步生成器,配合 student-forcing 和长视频训练技术解决误差累积和数据稀缺问题。
方法详解¶
整体框架¶
输入用户提供的首帧图像和文本提示,模型自回归地逐帧生成视频。每一步:(1) 将上一步生成的帧(或首帧)通过通道拼接输入,连同噪声和文本条件;(2) 基于 block causal attention 和 KV 缓存,一次前向传播生成下一帧所有 token;(3) 生成结果通过因果 VAE 解码并流式输出给用户。滑动窗口限制 KV 缓存大小(\(N=30\) 帧),确保恒定速度和内存。
关键设计¶
-
因果自回归架构:
- 功能:将双向视频扩散模型转化为高效的因果自回归生成器
- 核心思路:将全注意力替换为 block causal attention(文本 token 只自注意,视觉 token 只看当前帧和历史帧)。关键创新:将上一步生成结果通过通道拼接回收作为下一步输入(result recycling),而非像 diffusion forcing 那样需要两帧输入。这使得每步只需处理一帧的计算量,比 diffusion forcing 快 2 倍。使用滑动窗口 \(N=30\)(5秒)限制注意力范围,防止 KV 缓存无限增长。
- 设计动机:类似 LLM 的自回归方式天然适配 KV 缓存,但与 LLM 每次输出一个 token 不同,本模型每次输出一整帧的所有 token,最大化并行度。
-
Student-Forcing 对抗训练:
- 功能:消除训练-推理分布不匹配,减少长视频误差累积
- 核心思路:对抗训练阶段,生成器使用 student-forcing——仅取真实首帧,之后每步回收自己的实际生成结果作为下一步输入,完全模拟推理行为。判别器并行评估所有生成帧,输出逐帧 logit。梯度通过 KV 缓存反传更新所有参数(但 detach 帧输入以稳定训练)。使用 R3GAN 相对损失 \(\mathcal{L} = f(D(G(\epsilon, c), c) - D(x_0, c))\) 加上近似 R1/R2 正则化。
- 设计动机:Teacher-forcing 对抗训练在实验中完全失败——内容几帧后就严重漂移,因为连续潜变量的微小误差会快速累积。Student-forcing 从根本上消除了训练-推理的分布差距。
-
长视频训练技术:
- 功能:在缺少长时长训练数据的情况下训练分钟级视频生成能力
- 核心思路:让生成器产生长视频(如 60 秒),切割为短段(如 10 秒,含 1 秒重叠),每段独立被判别器评估。判别器在生成段和真实短视频间训练。关键:判别器不需要配对 ground truth,只需学会区分真假,因此可以从任意短视频中学习。每段生成后 detach KV 缓存,反传梯度并累积损失。
- 设计动机:数据集中连续单镜头平均仅 8 秒,30-60 秒的连续镜头极其稀少。传统监督方法需要长视频 ground truth,而对抗训练可以巧妙绕过这一限制。
损失函数 / 训练策略¶
三阶段训练:(1) 扩散适应(flow-matching loss, teacher-forcing, 30K iterations);(2) 一致性蒸馏(32步固定步骤, 5K iterations);(3) 对抗训练(R3GAN + R1/R2正则, student-forcing, 500+500 generator updates, 长视频扩展到55秒)。判别器使用与生成器相同的因果架构(8B),从扩散权重初始化。总计 256 H100 训练约 7 天。
实验关键数据¶
主实验¶
| 基准/模型 | 帧数 | Temporal Quality | Frame Quality | I2V Subject | I2V Background |
|---|---|---|---|---|---|
| AAPT (Ours) | 120 | 89.31 | 67.18 | 98.20 | 99.38 |
| CausVid | 120 | 92.00 | 65.00 | N/A | N/A |
| Wan 2.1 | 120 | 87.95 | 66.58 | 96.82 | 98.57 |
| Hunyuan | 120 | 89.80 | 64.18 | 97.71 | 97.97 |
| AAPT (Ours) | 1440 | 89.79 | 62.16 | 96.11 | 97.52 |
| SkyReel-V2 | 1440 | 86.51 | 52.58 | 95.28 | 97.85 |
| MAGI-1 | 1440 | 88.90 | 54.76 | 96.70 | 98.61 |
| 任务 | 方法 | 参数量 | GPU | 分辨率 | NFE | 延迟 | FPS |
|---|---|---|---|---|---|---|---|
| 流式生成 | CausVid | 5B | 1×H100 | 640×352 | 4 | 1.30s | 9.4 |
| 流式生成 | AAPT | 8B | 1×H100 | 736×416 | 1 | 0.16s | 24.8 |
| 流式生成 | MAGI-1 | 24B | 8×H100 | 736×416 | 8 | 7.00s | 3.43 |
| 流式生成 | AAPT | 8B | 8×H100 | 1280×720 | 1 | 0.17s | 24.2 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| Teacher-forcing 对抗训练 | 几帧后严重漂移 | 分布不匹配导致误差快速累积 |
| Student-forcing | 稳定生成 | 训练与推理行为一致 |
| 长视频训练 10s | Temporal 85.86, Frame 57.92 | 1分钟视频生成质量差 |
| 长视频训练 20s | Temporal 85.60, Frame 65.69 | 质量提升 |
| 长视频训练 60s | Temporal 89.79, Frame 62.16 | 1分钟生成质量大幅改善 |
| 无 result recycling | 无法生成大运动 | 缺少前帧信息导致时序不连贯 |
关键发现¶
- 对抗训练比 diffusion forcing + 步蒸馏更适合一步自回归场景,效率提升 2 倍且质量更优
- Student-forcing 是成功的关键——teacher-forcing 对抗训练完全失败
- 长视频训练使模型从"10秒后崩溃"提升到"60秒仍稳定",其他 baseline(SkyReel-V2、MAGI-1)20-30秒后明显退化
- 姿态控制(AKD=2.740)接近 SOTA OmniHuman-1(2.136),相机控制在 FVD 和翻译误差上超越 CameraCtrl2
亮点与洞察¶
- 对抗训练范式的创新应用:不仅用于生成质量,还解决了两个关键工程问题——student-forcing 消除误差累积、无需配对数据实现长视频训练
- 架构设计与训练策略的协同:result recycling + block causal attention + 1NFE 三者紧密配合,使得每步只需处理一帧,比 diffusion forcing 的两帧设计效率翻倍
- 在单 H100 上实现 24fps 实时视频生成是重要的实用突破,极大降低了交互式应用的部署门槛
局限与展望¶
- 一致性问题:长视频中主体和场景可能发生漂移,滑动窗口限制了全局一致性的维护
- 一步生成质量:偶尔产生瑕疵(artifacts),一旦出现会在时序中持续传播
- 零样本 5 分钟生成测试仍有伪影,超长视频仍需改进
- 训练成本高(256 H100 × 7天),判别器与生成器同等规模(共 16B 参数)
相关工作与启发¶
- vs CausVid (Yin et al., 2024): CausVid 将双向扩散模型转为因果 diffusion forcing,蒸馏到 4 步。AAPT 更彻底——直接到 1 步,且用对抗训练替代步蒸馏,速度快 2.6 倍(24fps vs 9.4fps)
- vs APT (Lin et al., 2025): AAPT 是 APT(图像领域对抗后训练)到自回归视频场景的扩展,新增了 student-forcing、逐帧判别器、长视频训练等关键组件
- vs MAGI-1 / SkyReel-V2: 这些模型用 diffusion forcing 从头训练,需要 8-24 步和 24+GPU 才能实时。AAPT 通过后训练现有模型实现一步生成,部署成本更低
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将对抗训练用于自回归视频生成,student-forcing 和长视频训练的组合非常巧妙
- 实验充分度: ⭐⭐⭐⭐ VBench 短/长视频评测、姿态和相机控制两个交互应用、速度对比全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述直观,附录详尽
- 价值: ⭐⭐⭐⭐⭐ 实时视频生成是重大实用突破,直接赋能交互式游戏/虚拟人等应用
相关论文¶
- [ICML 2025] Diffusion Adversarial Post-Training for One-Step Video Generation
- [NeurIPS 2025] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
- [ICLR 2026] MotionStream: Real-Time Video Generation with Interactive Motion Controls
- [CVPR 2025] Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation
- [CVPR 2025] One-Minute Video Generation with Test-Time Training