Goku: Flow Based Video Generative Foundation Models¶

会议: CVPR 2025
arXiv: 2502.04896
代码: 项目页面
领域: image_generation / video_generation
关键词: rectified flow, video generation, joint image-video, 3D VAE, Transformer, data curation

一句话总结¶

Goku 是字节跳动与港大提出的 rectified flow Transformer 系列模型（2B/8B），首次将 rectified flow 用于图像-视频联合生成，配合全面的数据管线和大规模训练基础设施优化，在 VBench（84.85）和 GenEval（0.76）等基准上达到 SOTA。

研究背景与动机¶

领域现状: 视频生成受益于先进的生成算法（GAN、扩散、Flow）、可扩展架构（Transformer）、海量互联网数据和持续增长的算力，已取得显著进展。但工业级联合图像-视频生成模型仍面临多方面挑战。

现有痛点: - 早期方法将时间注意力与空间注意力分离处理（temporal+spatial），难以建模复杂的时间运动 - DDPM 收敛速度较慢，训练大规模模型成本高昂 - 高质量视频数据获取成本远高于图像数据，数据不平衡问题突出 - 长序列（超 220K token）的训练需要高效的并行和内存管理策略

核心矛盾: 联合图像-视频训练需要同时学习图像的空间语义和视频的时间运动动态，直接联合优化极具挑战。

本文目标: 构建完整的工业级图像-视频联合生成流水线，从数据、模型、训练公式到基础设施全链路优化。

切入角度: 采用 rectified flow 替代 DDPM，使用全注意力 Transformer 和 3D 联合 VAE，配合分阶段分辨率渐进训练策略。

核心 idea: 用 rectified flow + 全注意力 Transformer 统一图像-视频生成，通过精细的数据管线和多阶段训练实现工业级质量。

方法详解¶

整体框架¶

3D 联合 VAE: 将图像/视频从像素空间压缩到共享隐空间（视频压缩比 8×8×4，图像 8×8）
Rectified Flow Transformer: 在隐空间上建模线性插值流，联合训练图像和视频的 token
多阶段训练: 文本-语义配对 → 图像-视频联合学习 → 模态特定微调
高效基础设施: 序列并行 + FSDP + 选择性激活检查点 + MegaScale 容错

关键设计¶

1. 全注意力 Transformer 架构¶

放弃传统的 temporal+spatial 分离注意力，直接对所有图像和视频 token 使用 plain full attention。关键增强： - Patch n' Pack: 借鉴 NaViT，将不同分辨率/时长的样本沿序列维度打包到同一 batch，无需数据桶 - 3D RoPE: 对图像/视频 token 应用三维旋转位置编码，支持分辨率外推，比正弦编码收敛更快 - Q-K Normalization: 对 query 和 key 在注意力计算前施加 RMSNorm，防止训练 loss 尖刺导致模型崩溃 - 模型规模：Goku-2B（28层，dim=1792，28头）和 Goku-8B（40层，dim=3072，48头）

2. Rectified Flow 训练公式¶

定义前向过程为数据与噪声的线性插值 \(\mathbf{x}_t = t \cdot \mathbf{x}_1 + (1-t) \cdot \mathbf{x}_0\)，模型学习预测速度 \(\mathbf{v}_t = d\mathbf{x}_t / dt\)。相比 DDPM，RF 提供更直接的插值路径，更好的理论性质和更快的收敛速度。

3. 多阶段渐进训练策略¶

Stage 1 (Text-Semantic Pairing): 纯文本到图像预训练，建立语义-视觉映射基础
Stage 2 (Joint Learning): 图像-视频联合训练，利用全注意力统一跨模态表示；高质量图像数据辅助提升视频帧质量；级联分辨率（288×512 → 480×864 → 720×1280）
Stage 3 (Modality-specific Fine-tuning): 分别针对 T2I 和 T2V 微调，提升各模态输出质量

损失函数¶

标准 rectified flow 速度预测损失：\(\mathcal{L} = \mathbb{E}_{t,\mathbf{x}_0,\mathbf{x}_1}[\|\mathbf{v}_t - f_\theta(\mathbf{x}_t, t)\|^2]\)

数据管线¶

规模: 160M 图文对 + 36M 视频文本对
视频处理: 预处理标准化 → PySceneDetect 粗切分 → DINOv2 帧间相似度细切分 → 美学评分/OCR/运动过滤
字幕生成: InternVL2.0 关键帧 + Tarsier2 视频字幕 → Qwen2 合并润色
数据均衡: 视频分类模型标注语义标签，上采样/下采样平衡 9 大类 86 子类

实验关键数据¶

主实验表¶

任务	基准	Goku 得分	排名
T2I	GenEval	0.76	SOTA
T2I	DPG-Bench	83.65	SOTA
T2V	VBench	84.85	第1名 (2025-01-25)
T2V	UCF-101 Zero-shot	SOTA	-

T2I 对比: 超越 SD3（GenEval 0.74）、DALL-E 3（GenEval 0.67）、Emu 3（0.66）

消融表（ImageNet 256×256 类条件生成）¶

Rectified Flow 收敛速度验证：

损失	步数	FID ↓	IS ↑
DDPM	400k	2.52	265.1
DDPM	1000k	2.26	286.6
RF	400k	2.16	261.1

RF 仅需 400k 步即达到 DDPM 1000k 步的 FID 水平。

关键发现¶

Rectified flow 比 DDPM 收敛快约 2.5 倍
全注意力优于时空分离注意力，能建模更复杂的时序运动
3D RoPE 比正弦位置编码在跨阶段训练转换时收敛更快
数据均衡显著影响人物类生成质量
8B 模型的检查点保存仅阻塞训练约 4 秒

亮点与洞察¶

工业级完整方案: 覆盖数据、模型、训练、基础设施全栈，不仅是算法创新
RF 首次用于联合图像-视频生成: 验证了 rectified flow 在视频生成领域的可行性和优势
Patch n' Pack 灵活打包: 彻底解决变分辨率/变时长数据的 batch 问题
数据驱动视角独特: 详细公开了视频过滤阈值（美学 ≥4.3/4.5、运动 0.3-20.0 等），对工程实践极具参考价值
字幕中附加运动分数: 将 motion score 嵌入 caption 实现运动控制，简单有效

局限与展望¶

论文未公开模型权重和训练代码，可复现性受限
视频质量的主观评价依赖人工，缺乏统一的自动化视频质量指标
Image-to-Video 仅支持首帧条件，不支持更灵活的多帧参考
数据管线依赖大量内部私有数据（60M 图像 + 25M 视频），社区难以复现
运动可控性仅通过 caption 中的 motion score 实现，粒度有限

评分¶

⭐⭐⭐⭐ (4/5)

创新性: ⭐⭐⭐⭐ — RF 首次用于联合图像-视频生成，虽然各组件非全新，但组合方式具工程创新性
实验充分度: ⭐⭐⭐⭐ — 多基准全面评测，但缺少与 CogVideoX 等开源模型的深度对比
论文写作: ⭐⭐⭐⭐ — 技术报告风格，结构清晰，工程细节丰富
工程价值: ⭐⭐⭐⭐⭐ — 对工业级视频生成的数据/训练/基础设施提供全面参考