Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation¶

会议: NeurIPS 2025
arXiv: 2506.09350
代码: https://seaweed-apt.com/2
领域: 视频生成 / 图像生成
关键词: video generation, real-time, adversarial training, autoregressive, one-step generation, interactive, streaming

一句话总结¶

提出 AAPT（Autoregressive Adversarial Post-Training），将预训练的潜在视频扩散模型转化为实时交互式视频生成器——每帧仅需单次神经网络前向传播（1NFE），自回归逐帧生成，8B 模型在单张 H100 上以 24fps 流式生成 736×416 视频，最长可达一分钟（1440帧）。

背景与动机¶

大规模视频扩散模型（如 Sora, CogVideoX 等）虽然生成质量高，但需要数十步去噪迭代，计算量巨大，无法用于实时和交互式应用。现有加速方法存在以下问题： - 蒸馏方法（如 consistency distillation）：可以减少步数但通常不支持自回归和交互 - GAN 方法：单步生成但不易扩展到大规模视频模型 - 自回归方法：天然支持流式/交互，但逐token生成仍然慢

关键洞察：对抗训练提供了一个天然适合自回归生成的范式——每步生成一帧的"假样本"让判别器判断，训练出单步生成的能力。

核心问题¶

如何将大规模预训练的视频扩散模型后训练为实时的自回归单步视频生成器，同时保持生成质量并支持用户实时交互控制？

方法详解¶

整体框架¶

从预训练的潜在视频扩散模型出发
用对抗训练将多步扩散过程蒸馏为单步（1NFE）生成
自回归生成：每次生成一个潜在帧，利用 KV cache 加速
实时流式输出 + 接收用户输入控制下一帧生成

关键设计¶

自回归单步生成架构: 重新设计架构以适配单步生成——移除需要多步的组件（如自注意力中的 noise conditioning），使之能充分利用 KV cache 进行高效自回归推理。每次推理仅处理当前帧的 token 并缓存 KV。
对抗后训练（Adversarial Post-Training）: 用视频扩散模型的教师输出作为"真样本"，单步生成器的输出作为"假样本"训练判别器。关键点：
Student-forcing 训练（在自身生成的上下文中继续生成），而非 teacher-forcing（在教师提供的上下文中生成），有效减少自回归长视频生成中的误差累积
判别器在潜在空间操作，计算高效
KV Cache 复用: 自回归生成天然适合 KV cache——已生成帧的注意力状态被缓存，新帧只需与缓存交互，计算量仅为单帧 token 的复杂度（而非全视频）。
交互式控制: 由于是流式逐帧生成，用户可以在生成过程中实时注入新的控制信号（文本指令修改、摄像机运动等），模型立即在下一帧中响应。

训练策略¶

从预训练视频扩散模型 warm start，对抗训练阶段。Student-forcing 关键：训练时用生成器自己的历史输出（而非 ground truth）作为上下文，使生成器学会从自身的"不完美"上下文中恢复，显著减少长视频中的误差累积。

实验关键数据¶

指标	结果
模型大小	8B 参数
推理速度	24fps 实时流式生成
分辨率	736×416 (1×H100) / 1280×720 (8×H100)
最大长度	一分钟 (1440帧)
每帧推理	单次前向传播 (1NFE)

与多步视频扩散模型质量对比：在大幅提速的同时保持了接近教师模型的生成质量。

消融实验要点¶

Student-forcing vs Teacher-forcing: Student-forcing 在长视频生成中误差累积远小于 teacher-forcing
对抗训练 vs 蒸馏: 对抗训练的单步生成质量优于 consistency/progressive distillation
KV cache 效率: 自回归 + KV cache 使长视频生成的 per-frame 成本几乎恒定

亮点¶

实时 24fps 流式视频生成是一个里程碑式成果
对抗训练 + 自回归的结合很自然且高效
Student-forcing 解决误差累积的思路简洁有效
交互式生成的应用场景极广：游戏、VR、实时内容创作
从预训练模型后训练，不需要从头训练

局限性 / 可改进方向¶

8B 模型仍需 H100 级 GPU，普通消费者硬件不可用
单步生成的质量仍不如多步扩散的极限质量
交互控制的精确度和稳定性有待提升
长视频（>1分钟）的质量衰减需要进一步研究

与相关工作的对比¶

vs Consistency Models: CM 做单步生成但不支持自回归/交互；AAPT 同时做到单步+自回归+交互
vs StreamDiffusion: StreamDiffusion 逐步减少去噪步数；AAPT 直接 1NFE+对抗训练，更高效
vs GameGen/Oasis（世界模型）: 类似的实时交互视频生成目标，但 AAPT 基于更强大的视频扩散教师模型，生成质量更高

启发与关联¶

对抗后训练范式可迁移到图像扩散模型（单步图像生成 + 交互式编辑）
Student-forcing vs teacher-forcing 的分析对所有自回归生成模型有参考价值
可与视频理解 VLM 结合：实时生成视频 → VLM 理解 → 用户反馈 → 修正生成，形成闭环交互

评分¶

新颖性: ⭐⭐⭐⭐⭐ 对抗后训练+自回归+交互式的组合首创，实时视频生成里程碑
实验充分度: ⭐⭐⭐⭐ 实时性能令人印象深刻，但质量对比可更详细
写作质量: ⭐⭐⭐⭐ 动机清晰，系统描述完整
价值: ⭐⭐⭐⭐⭐ 对实时视频生成和交互式内容创作意义重大