Goku: Flow Based Video Generative Foundation Models¶
会议: CVPR 2025
arXiv: 2502.04896
代码: 项目页面
领域: image_generation / video_generation
关键词: rectified flow, video generation, joint image-video, 3D VAE, Transformer, data curation
一句话总结¶
Goku 是字节跳动与港大提出的 rectified flow Transformer 系列模型(2B/8B),首次将 rectified flow 用于图像-视频联合生成,配合全面的数据管线和大规模训练基础设施优化,在 VBench(84.85)和 GenEval(0.76)等基准上达到 SOTA。
研究背景与动机¶
领域现状: 视频生成受益于先进的生成算法(GAN、扩散、Flow)、可扩展架构(Transformer)、海量互联网数据和持续增长的算力,已取得显著进展。但工业级联合图像-视频生成模型仍面临多方面挑战。
现有痛点: - 早期方法将时间注意力与空间注意力分离处理(temporal+spatial),难以建模复杂的时间运动 - DDPM 收敛速度较慢,训练大规模模型成本高昂 - 高质量视频数据获取成本远高于图像数据,数据不平衡问题突出 - 长序列(超 220K token)的训练需要高效的并行和内存管理策略
核心矛盾: 联合图像-视频训练需要同时学习图像的空间语义和视频的时间运动动态,直接联合优化极具挑战。
本文目标: 构建完整的工业级图像-视频联合生成流水线,从数据、模型、训练公式到基础设施全链路优化。
切入角度: 采用 rectified flow 替代 DDPM,使用全注意力 Transformer 和 3D 联合 VAE,配合分阶段分辨率渐进训练策略。
核心 idea: 用 rectified flow + 全注意力 Transformer 统一图像-视频生成,通过精细的数据管线和多阶段训练实现工业级质量。
方法详解¶
整体框架¶
- 3D 联合 VAE: 将图像/视频从像素空间压缩到共享隐空间(视频压缩比 8×8×4,图像 8×8)
- Rectified Flow Transformer: 在隐空间上建模线性插值流,联合训练图像和视频的 token
- 多阶段训练: 文本-语义配对 → 图像-视频联合学习 → 模态特定微调
- 高效基础设施: 序列并行 + FSDP + 选择性激活检查点 + MegaScale 容错
关键设计¶
1. 全注意力 Transformer 架构¶
放弃传统的 temporal+spatial 分离注意力,直接对所有图像和视频 token 使用 plain full attention。关键增强: - Patch n' Pack: 借鉴 NaViT,将不同分辨率/时长的样本沿序列维度打包到同一 batch,无需数据桶 - 3D RoPE: 对图像/视频 token 应用三维旋转位置编码,支持分辨率外推,比正弦编码收敛更快 - Q-K Normalization: 对 query 和 key 在注意力计算前施加 RMSNorm,防止训练 loss 尖刺导致模型崩溃 - 模型规模:Goku-2B(28层,dim=1792,28头)和 Goku-8B(40层,dim=3072,48头)
2. Rectified Flow 训练公式¶
定义前向过程为数据与噪声的线性插值 \(\mathbf{x}_t = t \cdot \mathbf{x}_1 + (1-t) \cdot \mathbf{x}_0\),模型学习预测速度 \(\mathbf{v}_t = d\mathbf{x}_t / dt\)。相比 DDPM,RF 提供更直接的插值路径,更好的理论性质和更快的收敛速度。
3. 多阶段渐进训练策略¶
- Stage 1 (Text-Semantic Pairing): 纯文本到图像预训练,建立语义-视觉映射基础
- Stage 2 (Joint Learning): 图像-视频联合训练,利用全注意力统一跨模态表示;高质量图像数据辅助提升视频帧质量;级联分辨率(288×512 → 480×864 → 720×1280)
- Stage 3 (Modality-specific Fine-tuning): 分别针对 T2I 和 T2V 微调,提升各模态输出质量
损失函数¶
标准 rectified flow 速度预测损失:\(\mathcal{L} = \mathbb{E}_{t,\mathbf{x}_0,\mathbf{x}_1}[\|\mathbf{v}_t - f_\theta(\mathbf{x}_t, t)\|^2]\)
数据管线¶
- 规模: 160M 图文对 + 36M 视频文本对
- 视频处理: 预处理标准化 → PySceneDetect 粗切分 → DINOv2 帧间相似度细切分 → 美学评分/OCR/运动过滤
- 字幕生成: InternVL2.0 关键帧 + Tarsier2 视频字幕 → Qwen2 合并润色
- 数据均衡: 视频分类模型标注语义标签,上采样/下采样平衡 9 大类 86 子类
实验关键数据¶
主实验表¶
| 任务 | 基准 | Goku 得分 | 排名 |
|---|---|---|---|
| T2I | GenEval | 0.76 | SOTA |
| T2I | DPG-Bench | 83.65 | SOTA |
| T2V | VBench | 84.85 | 第1名 (2025-01-25) |
| T2V | UCF-101 Zero-shot | SOTA | - |
T2I 对比: 超越 SD3(GenEval 0.74)、DALL-E 3(GenEval 0.67)、Emu 3(0.66)
消融表(ImageNet 256×256 类条件生成)¶
Rectified Flow 收敛速度验证:
| 损失 | 步数 | FID ↓ | IS ↑ |
|---|---|---|---|
| DDPM | 400k | 2.52 | 265.1 |
| DDPM | 1000k | 2.26 | 286.6 |
| RF | 400k | 2.16 | 261.1 |
RF 仅需 400k 步即达到 DDPM 1000k 步的 FID 水平。
关键发现¶
- Rectified flow 比 DDPM 收敛快约 2.5 倍
- 全注意力优于时空分离注意力,能建模更复杂的时序运动
- 3D RoPE 比正弦位置编码在跨阶段训练转换时收敛更快
- 数据均衡显著影响人物类生成质量
- 8B 模型的检查点保存仅阻塞训练约 4 秒
亮点与洞察¶
- 工业级完整方案: 覆盖数据、模型、训练、基础设施全栈,不仅是算法创新
- RF 首次用于联合图像-视频生成: 验证了 rectified flow 在视频生成领域的可行性和优势
- Patch n' Pack 灵活打包: 彻底解决变分辨率/变时长数据的 batch 问题
- 数据驱动视角独特: 详细公开了视频过滤阈值(美学 ≥4.3/4.5、运动 0.3-20.0 等),对工程实践极具参考价值
- 字幕中附加运动分数: 将 motion score 嵌入 caption 实现运动控制,简单有效
局限与展望¶
- 论文未公开模型权重和训练代码,可复现性受限
- 视频质量的主观评价依赖人工,缺乏统一的自动化视频质量指标
- Image-to-Video 仅支持首帧条件,不支持更灵活的多帧参考
- 数据管线依赖大量内部私有数据(60M 图像 + 25M 视频),社区难以复现
- 运动可控性仅通过 caption 中的 motion score 实现,粒度有限
相关工作与启发¶
- Sora (Brooks et al., 2024): 首先提出 3D VAE 压缩视频到隐空间的思路,Goku 延续并完善
- GenTron (Chen et al., 2024): Goku Transformer block 的基础设计来源
- NaViT (Dehghani et al., 2024): Patch n' Pack 灵活打包方案的来源
- InternVL2.0: 用于生成高质量图像/视频字幕
- MegaScale (Jiang et al., 2024): 大规模训练容错机制
启发: Rectified flow 在超大规模生成模型中的优势(快速收敛)可能推动更多工作从 DDPM 迁移到 flow-based formulation。数据管线中 motion score 嵌入 caption 的做法值得借鉴。
评分¶
⭐⭐⭐⭐ (4/5)
- 创新性: ⭐⭐⭐⭐ — RF 首次用于联合图像-视频生成,虽然各组件非全新,但组合方式具工程创新性
- 实验充分度: ⭐⭐⭐⭐ — 多基准全面评测,但缺少与 CogVideoX 等开源模型的深度对比
- 论文写作: ⭐⭐⭐⭐ — 技术报告风格,结构清晰,工程细节丰富
- 工程价值: ⭐⭐⭐⭐⭐ — 对工业级视频生成的数据/训练/基础设施提供全面参考
相关论文¶
- [CVPR 2025] Can Generative Video Models Help Pose Estimation?
- [CVPR 2025] VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
- [CVPR 2025] ObjectMover: Generative Object Movement with Video Prior
- [CVPR 2025] FADE: Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models
- [ICCV 2025] Deeply Supervised Flow-Based Generative Models