OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning¶

日期: 2026-03-25
arXiv: 2603.24458
代码: 无
领域: 视频生成 / 多模态
关键词: unified video generation, free-form composition, video reasoning, open-source

一句话总结¶

OmniWeaving 提出开源统一视频生成框架，将文生视频、图生视频、视频编辑、视频推理等多种任务整合到单一模型中，支持自由组合式输入（图文混合 prompt），弥补了开源社区与 Seedance-2.0 等商业系统在全能视频生成上的巨大差距。

领域现状：商业视频生成系统（Seedance-2.0、Sora）已实现多任务统一生成，但开源方案仍高度碎片化——文生视频、图生视频、视频编辑各用不同模型。
现有痛点：(a) 学术模型单点突破但无法跨任务；(b) 少数开源统一模型在任务间融合度不够，切换任务时需要不同的 adapter/prompt 格式；(c) 缺乏视频推理能力（理解视频内容后做条件生成）
核心矛盾：统一多任务需要灵活的输入格式和共享表示，但不同任务的输入形态差异大
切入角度：自由组合式输入——允许用户混合图片、文本、视频帧作为 prompt，模型统一理解后生成
核心 idea：自由组合输入 + 统一 diffusion transformer + 多任务训练，让一个模型处理所有视频生成任务

统一的 DiT（Diffusion Transformer）架构，输入端接受任意组合的 {文本, 图片, 视频帧, 参考图}，通过统一的 token 化策略编码为同一序列，DiT 在噪声空间生成目标视频。

自由组合输入（Free-form Composition）:
- 做什么：允许用户以任意数量和顺序混合图片、文本、视频帧作为生成条件
- 核心思路：所有模态通过统一 tokenizer 编码为同一序列——图片和视频帧共享视觉 tokenizer（3D VAE + patchify），文本用语言模型编码。不同模态 token 通过特殊分隔符标识边界，DiT 在全序列上做全局注意力
- 设计动机：固定格式输入（如 I2V 必须输入一张图+文本）限制了灵活性和涌现能力。自由组合让模型发现最优的输入组合方式，实验中涌现了混合引导等未专门训练的能力
任务统一映射:
- 文生视频 = (文本 → 视频)：最基本的条件生成
- 图生视频 = (参考图 + 文本 → 视频)：图像作为首帧或风格参考
- 视频编辑 = (源视频 + 编辑指令 → 视频)：源视频帧作为条件
- 视频推理 = (视频 + 文本问题 → 条件生成)：先"理解"再"创作"
- 所有任务统一为"给定条件 token 序列，生成目标视频 token 序列"的范式
渐进式多阶段训练:
- Stage 1: 大规模图文对预训练——学习基础视觉-语义对齐
- Stage 2: 视频数据微调——学习时序一致性和运动建模
- Stage 3: 多任务混合训练——在所有支持的任务上联合优化，用任务标识符区分不同模式
- 关键细节：Stage 3 使用课程学习策略，从简单任务（T2V）逐渐混入复杂任务（编辑、推理）

任务	OmniWeaving	专用模型 SOTA	说明
文生视频	竞争力	CogVideoX 等	单模型兼顾多任务
图生视频	竞争力	I2V-Adapter 等	无需额外 adapter
视频编辑	好	TokenFlow 等	指令驱动编辑

单一模型在所有任务上接近专用模型 SOTA，差距仅 1-3%——统一的代价极小
自由组合输入带来了涌现能力——混合图文条件比纯文本或纯图条件生成更合理
渐进训练中任务顺序很关键——先学基础 T2V 再加复杂任务效果最优 | 无 Stage 3 课程学习 | 多任务下降明显 | 直接混合训练不如渐进式 | | 无视频推理任务 | 编辑能力下降 | 推理能力反哺编辑 |