跳转至

Helios: Real Real-Time Long Video Generation Model

日期: 2026-03-04
arXiv: 2603.04379
代码: 即将开源
领域: 视频生成
关键词: video generation, autoregressive diffusion, real-time inference, long video, anti-drifting

一句话总结

Helios 是首个在单张 H100 上以 19.5 FPS 运行的 14B 视频生成模型,通过统一输入表示、anti-drifting 训练策略和极致效率压缩,实现分钟级长视频实时生成且质量不逊于强基线。

研究背景与动机

  1. 领域现状:当前视频生成模型(如 Sora、CogVideo 等)虽然画质不断提升,但推理速度远未达到实时(19+ FPS),且长视频生成受限于 drifting 问题——随时间推移画面逐渐失真。
  2. 现有痛点:(a) 长视频 drifting 通常依赖 self-forcing、error-bank、keyframe sampling 等启发式方法,治标不治本;(b) 加速推理通常需要 KV-cache、稀疏/线性注意力或量化,但引入质量损失;(c) 训练大模型需要复杂的并行/分片框架,门槛高。
  3. 核心矛盾:高质量视频生成需要大模型(14B),但大模型的推理吞吐难以实时化;长视频需要时序一致性,但自回归模式天然引入累积误差。
  4. 本文要解决什么? (1) 长视频不 drift;(2) 14B 模型实时推理;(3) 训练门槛低到 image diffusion 级别。
  5. 切入角度:不在推理侧打补丁,而是从训练策略和计算图压缩两端同时入手——训练时显式模拟 drifting 以增强鲁棒性,推理时通过极致的历史/噪声 context 压缩把 14B 模型的计算量压到 1.3B 的水平。
  6. 核心 idea 一句话:通过在训练中模拟 drifting 失真 + 极致压缩历史上下文,让 14B 自回归扩散模型达到实时速度且长视频不退化。

方法详解

整体框架

Helios 是一个 14B 参数的自回归扩散模型,采用统一输入表示原生支持 T2V(文生视频)、I2V(图生视频)、V2V(视频编辑)三类任务。生成过程以 chunk 为单位自回归进行:每步接收压缩后的历史帧 + 噪声 context,通过少量采样步骤生成下一个 chunk。

关键设计

  1. 统一输入表示:

    • 做什么:将文本、图像、视频帧统一编码为 token 序列,使单一模型原生处理 T2V/I2V/V2V
    • 核心思路:不同模态通过共享的 latent space 表示,训练时混合多任务数据
    • 设计动机:避免为每类任务训练独立模型,简化部署并提升泛化
  2. Anti-drifting 训练策略:

    • 做什么:在训练时显式引入 drifting 模拟,使模型学会在退化条件下自我修正
    • 核心思路:(a) 分析典型 drifting 失败模式(色彩漂移、结构崩塌、重复运动);(b) 在训练数据中注入模拟退化的 context;(c) 从源头消除重复运动——通过训练策略而非推理时启发式方法
    • 设计动机:self-forcing 等方法在推理时增加开销且效果不稳定,在训练阶段直接让模型适应退化 context 更根本
    • 与之前方法的区别:不需要 self-forcing、error-bank 或 keyframe sampling 等推理时的额外机制
  3. 历史与噪声 Context 极致压缩:

    • 做什么:将历史帧和噪声帧的 token 数量大幅压缩,使计算量降至 1.3B 模型级别
    • 核心思路:对已生成帧的 latent 表示进行空间和时间维度的降采样/pooling,仅保留关键信息传递给下一步
    • 设计动机:14B 模型的质量需要保留,但全量 context 的注意力计算 \(O(n^2)\) 是实时推理的主要瓶颈
  4. 采样步数减少 + 基础设施优化:

    • 做什么:减少扩散采样步数 + GPU kernel 级加速
    • 核心思路:通过蒸馏/调度优化将采样步数压缩到极少步;同时引入 infrastructure-level 优化加速推理和训练、减少显存占用
    • 设计动机:在 H100 上实现 19.5 FPS 需要每个 chunk 的生成时间极短

训练策略

  • 内存效率:在 80GB GPU 内最多可放 4 个 14B 模型,无需并行/分片框架
  • Image-diffusion 级 batch size:训练配置简单到接近图像扩散模型的训练门槛
  • 面向社区开源:代码 + base model + 蒸馏模型

实验关键数据

主实验

Helios 在短视频和长视频生成上均显著超过此前方法:

对比维度 Helios (14B) 之前方法 说明
推理速度 19.5 FPS (单 H100) <5 FPS (同量级模型) 首个 14B 实时模型
长视频 drift 无需额外 anti-drift 需 self-forcing 等 训练策略解决
等效计算量 ≈ 1.3B 模型级别 14B 完整计算 context 压缩
T2V/I2V/V2V 统一模型支持 通常需要独立微调 统一表示

消融实验

配置 关键效果 说明
Full model 最优质量 + 19.5 FPS 完整 Helios
w/o anti-drift training 长视频后段严重退化 drifting 训练策略是核心
w/o context 压缩 速度降至 <5 FPS 压缩是实时性关键
w/o 采样步数优化 速度降至 ~10 FPS 步数减少贡献约 2x

关键发现

  • Anti-drifting 训练是核心:去掉 drifting 训练策略后,长视频(>30s)质量显著退化,证明从训练源头解决 drift 比推理时打补丁更有效
  • Context 压缩不损质量:即使极致压缩历史 context,视频质量并未明显下降,说明历史帧中存在大量冗余信息
  • 14B vs 1.3B:在相近计算预算下,14B + 压缩远优于原生 1.3B 模型,证明大模型的知识无法被简单替代

亮点与洞察

  • "不靠推理 trick,靠训练策略"的思路:anti-drifting 不在推理时加额外模块,而是在训练时让模型见过退化 context 并学会自我修正——这是一种更优雅的解决方式,可迁移到任何自回归生成任务
  • 极致 context 压缩思路:14B 模型通过压缩历史 context 达到 1.3B 的计算量,本质上是"用大模型的知识但小模型的计算",对视频/语言模型的长序列推理都有启发
  • 降低训练门槛:不需要并行/分片框架就能训练 14B 视频模型,使学术实验室也有机会复现

局限性 / 可改进方向

  • 仅在 H100 上验证:消费级 GPU(4090 等)能否达到实时尚未报告,限制了实际应用场景
  • 极致压缩的信息损失边界:当视频内容变化极为剧烈(如多次场景切换)时,极致压缩是否仍然足够尚不清楚
  • 蒸馏模型细节未充分展示:base model 和 distilled model 的质量差异、蒸馏策略等信息较少

相关工作与启发

  • vs CogVideoX/OpenSora:它们也是自回归视频生成,但推理远未实时,且长视频需要额外的 anti-drift 模块
  • vs StreamingT2V:StreamingT2V 通过流式生成解决长视频,但质量和速度不如 Helios
  • vs CubeComposer (同日论文):CubeComposer 聚焦 4K 360° 全景视频生成,Helios 聚焦实时、长视频,互补但不直接竞争

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个实时 14B 长视频模型,anti-drift 训练策略思路新颖
  • 实验充分度: ⭐⭐⭐⭐ 短视频/长视频均有评估,但详细消融受限于论文篇幅
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,三大贡献维度明确
  • 价值: ⭐⭐⭐⭐⭐ 实时视频生成是重要里程碑,开源承诺进一步增加价值