Helios: Real Real-Time Long Video Generation Model¶

日期: 2026-03-04
arXiv: 2603.04379
代码: 即将开源
领域: 视频生成
关键词: video generation, autoregressive diffusion, real-time inference, long video, anti-drifting

一句话总结¶

Helios 是首个在单张 H100 上以 19.5 FPS 运行的 14B 视频生成模型，通过统一输入表示、anti-drifting 训练策略和极致效率压缩，实现分钟级长视频实时生成且质量不逊于强基线。

研究背景与动机¶

领域现状：当前视频生成模型（如 Sora、CogVideo 等）虽然画质不断提升，但推理速度远未达到实时（19+ FPS），且长视频生成受限于 drifting 问题——随时间推移画面逐渐失真。
现有痛点：(a) 长视频 drifting 通常依赖 self-forcing、error-bank、keyframe sampling 等启发式方法，治标不治本；(b) 加速推理通常需要 KV-cache、稀疏/线性注意力或量化，但引入质量损失；(c) 训练大模型需要复杂的并行/分片框架，门槛高。
核心矛盾：高质量视频生成需要大模型（14B），但大模型的推理吞吐难以实时化；长视频需要时序一致性，但自回归模式天然引入累积误差。
本文要解决什么？ (1) 长视频不 drift；(2) 14B 模型实时推理；(3) 训练门槛低到 image diffusion 级别。
切入角度：不在推理侧打补丁，而是从训练策略和计算图压缩两端同时入手——训练时显式模拟 drifting 以增强鲁棒性，推理时通过极致的历史/噪声 context 压缩把 14B 模型的计算量压到 1.3B 的水平。
核心 idea 一句话：通过在训练中模拟 drifting 失真 + 极致压缩历史上下文，让 14B 自回归扩散模型达到实时速度且长视频不退化。

方法详解¶

整体框架¶

Helios 是一个 14B 参数的自回归扩散模型，采用统一输入表示原生支持 T2V（文生视频）、I2V（图生视频）、V2V（视频编辑）三类任务。生成过程以 chunk 为单位自回归进行：每步接收压缩后的历史帧 + 噪声 context，通过少量采样步骤生成下一个 chunk。

关键设计¶

统一输入表示:
- 做什么：将文本、图像、视频帧统一编码为 token 序列，使单一模型原生处理 T2V/I2V/V2V
- 核心思路：不同模态通过共享的 latent space 表示，训练时混合多任务数据
- 设计动机：避免为每类任务训练独立模型，简化部署并提升泛化
Anti-drifting 训练策略:
- 做什么：在训练时显式引入 drifting 模拟，使模型学会在退化条件下自我修正
- 核心思路：(a) 分析典型 drifting 失败模式（色彩漂移、结构崩塌、重复运动）；(b) 在训练数据中注入模拟退化的 context；(c) 从源头消除重复运动——通过训练策略而非推理时启发式方法
- 设计动机：self-forcing 等方法在推理时增加开销且效果不稳定，在训练阶段直接让模型适应退化 context 更根本
- 与之前方法的区别：不需要 self-forcing、error-bank 或 keyframe sampling 等推理时的额外机制
历史与噪声 Context 极致压缩:
- 做什么：将历史帧和噪声帧的 token 数量大幅压缩，使计算量降至 1.3B 模型级别
- 核心思路：对已生成帧的 latent 表示进行空间和时间维度的降采样/pooling，仅保留关键信息传递给下一步
- 设计动机：14B 模型的质量需要保留，但全量 context 的注意力计算 \(O(n^2)\) 是实时推理的主要瓶颈
采样步数减少 + 基础设施优化:
- 做什么：减少扩散采样步数 + GPU kernel 级加速
- 核心思路：通过蒸馏/调度优化将采样步数压缩到极少步；同时引入 infrastructure-level 优化加速推理和训练、减少显存占用
- 设计动机：在 H100 上实现 19.5 FPS 需要每个 chunk 的生成时间极短

训练策略¶

内存效率：在 80GB GPU 内最多可放 4 个 14B 模型，无需并行/分片框架
Image-diffusion 级 batch size：训练配置简单到接近图像扩散模型的训练门槛
面向社区开源：代码 + base model + 蒸馏模型

实验关键数据¶

主实验¶

Helios 在短视频和长视频生成上均显著超过此前方法：

对比维度	Helios (14B)	之前方法	说明
推理速度	19.5 FPS (单 H100)	<5 FPS (同量级模型)	首个 14B 实时模型
长视频 drift	无需额外 anti-drift	需 self-forcing 等	训练策略解决
等效计算量	≈ 1.3B 模型级别	14B 完整计算	context 压缩
T2V/I2V/V2V	统一模型支持	通常需要独立微调	统一表示

消融实验¶

配置	关键效果	说明
Full model	最优质量 + 19.5 FPS	完整 Helios
w/o anti-drift training	长视频后段严重退化	drifting 训练策略是核心
w/o context 压缩	速度降至 <5 FPS	压缩是实时性关键
w/o 采样步数优化	速度降至 ~10 FPS	步数减少贡献约 2x

关键发现¶

Anti-drifting 训练是核心：去掉 drifting 训练策略后，长视频（>30s）质量显著退化，证明从训练源头解决 drift 比推理时打补丁更有效
Context 压缩不损质量：即使极致压缩历史 context，视频质量并未明显下降，说明历史帧中存在大量冗余信息
14B vs 1.3B：在相近计算预算下，14B + 压缩远优于原生 1.3B 模型，证明大模型的知识无法被简单替代

亮点与洞察¶

"不靠推理 trick，靠训练策略"的思路：anti-drifting 不在推理时加额外模块，而是在训练时让模型见过退化 context 并学会自我修正——这是一种更优雅的解决方式，可迁移到任何自回归生成任务
极致 context 压缩思路：14B 模型通过压缩历史 context 达到 1.3B 的计算量，本质上是"用大模型的知识但小模型的计算"，对视频/语言模型的长序列推理都有启发
降低训练门槛：不需要并行/分片框架就能训练 14B 视频模型，使学术实验室也有机会复现

局限性 / 可改进方向¶

仅在 H100 上验证：消费级 GPU（4090 等）能否达到实时尚未报告，限制了实际应用场景
极致压缩的信息损失边界：当视频内容变化极为剧烈（如多次场景切换）时，极致压缩是否仍然足够尚不清楚
蒸馏模型细节未充分展示：base model 和 distilled model 的质量差异、蒸馏策略等信息较少

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个实时 14B 长视频模型，anti-drift 训练策略思路新颖
实验充分度: ⭐⭐⭐⭐ 短视频/长视频均有评估，但详细消融受限于论文篇幅
写作质量: ⭐⭐⭐⭐ 论文结构清晰，三大贡献维度明确
价值: ⭐⭐⭐⭐⭐ 实时视频生成是重要里程碑，开源承诺进一步增加价值