跳转至

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

日期: 2026-03-25
arXiv: 2603.24458
代码: 无
领域: 视频生成 / 多模态
关键词: unified video generation, free-form composition, video reasoning, open-source

一句话总结

OmniWeaving 提出开源统一视频生成框架,将文生视频、图生视频、视频编辑、视频推理等多种任务整合到单一模型中,支持自由组合式输入(图文混合 prompt),弥补了开源社区与 Seedance-2.0 等商业系统在全能视频生成上的巨大差距。

研究背景与动机

  1. 领域现状:商业视频生成系统(Seedance-2.0、Sora)已实现多任务统一生成,但开源方案仍高度碎片化——文生视频、图生视频、视频编辑各用不同模型。
  2. 现有痛点:(a) 学术模型单点突破但无法跨任务;(b) 少数开源统一模型在任务间融合度不够,切换任务时需要不同的 adapter/prompt 格式;(c) 缺乏视频推理能力(理解视频内容后做条件生成)
  3. 核心矛盾:统一多任务需要灵活的输入格式和共享表示,但不同任务的输入形态差异大
  4. 切入角度:自由组合式输入——允许用户混合图片、文本、视频帧作为 prompt,模型统一理解后生成
  5. 核心 idea自由组合输入 + 统一 diffusion transformer + 多任务训练,让一个模型处理所有视频生成任务

方法详解

整体框架

统一的 DiT(Diffusion Transformer)架构,输入端接受任意组合的 {文本, 图片, 视频帧, 参考图},通过统一的 token 化策略编码为同一序列,DiT 在噪声空间生成目标视频。

关键设计

  1. 自由组合输入(Free-form Composition):

    • 做什么:允许用户以任意数量和顺序混合图片、文本、视频帧作为生成条件
    • 核心思路:所有模态通过统一 tokenizer 编码为同一序列——图片和视频帧共享视觉 tokenizer(3D VAE + patchify),文本用语言模型编码。不同模态 token 通过特殊分隔符标识边界,DiT 在全序列上做全局注意力
    • 设计动机:固定格式输入(如 I2V 必须输入一张图+文本)限制了灵活性和涌现能力。自由组合让模型发现最优的输入组合方式,实验中涌现了混合引导等未专门训练的能力
  2. 任务统一映射:

    • 文生视频 = (文本 → 视频):最基本的条件生成
    • 图生视频 = (参考图 + 文本 → 视频):图像作为首帧或风格参考
    • 视频编辑 = (源视频 + 编辑指令 → 视频):源视频帧作为条件
    • 视频推理 = (视频 + 文本问题 → 条件生成):先"理解"再"创作"
    • 所有任务统一为"给定条件 token 序列,生成目标视频 token 序列"的范式
  3. 渐进式多阶段训练:

    • Stage 1: 大规模图文对预训练——学习基础视觉-语义对齐
    • Stage 2: 视频数据微调——学习时序一致性和运动建模
    • Stage 3: 多任务混合训练——在所有支持的任务上联合优化,用任务标识符区分不同模式
    • 关键细节:Stage 3 使用课程学习策略,从简单任务(T2V)逐渐混入复杂任务(编辑、推理)

损失函数 / 训练策略

  • 标准 flow matching 目标,条件化于输入 token 序列
  • 分辨率渐进:低分辨率→高分辨率阶段性提升
  • 数据混合比例随训练阶段动态调整(Stage 3 中各任务按性能自适应采样)

实验关键数据

主实验

任务 OmniWeaving 专用模型 SOTA 说明
文生视频 竞争力 CogVideoX 等 单模型兼顾多任务
图生视频 竞争力 I2V-Adapter 等 无需额外 adapter
视频编辑 TokenFlow 等 指令驱动编辑

消融实验

配置 效果 说明
单任务训练 各任务单独最优 但需要多个模型
多任务统一训练 略降 1-3% 一个模型做所有
自由组合 vs 固定格式 组合更优 灵活性带来泛化

关键发现

  • 单一模型在所有任务上接近专用模型 SOTA,差距仅 1-3%——统一的代价极小
  • 自由组合输入带来了涌现能力——混合图文条件比纯文本或纯图条件生成更合理
  • 渐进训练中任务顺序很关键——先学基础 T2V 再加复杂任务效果最优 | 无 Stage 3 课程学习 | 多任务下降明显 | 直接混合训练不如渐进式 | | 无视频推理任务 | 编辑能力下降 | 推理能力反哺编辑 |

关键发现

  • 统一模型在各单任务上与专用模型差距仅 1-3%,但只需维护一个模型
  • 自由组合输入使模型涌现了未经专门训练的能力(如混合引导生成、风格迁移视频)
  • 视频推理能力与编辑能力正相关——先"理解"才能更好地"修改"
  • 开源社区首个接近商业系统全能度的视频生成框架
  • 渐进式训练比一次性混合训练稳定,最终任务间正迁移大于负迁移

亮点与洞察

  • 开源社区的重要贡献:填补了开源与商业视频生成的差距,降低了研究门槛
  • 自由组合的灵活性:允许创意性的输入组合,涌现出意想不到的生成能力——这可能是统一模型相比专用模型的独特优势
  • "理解→创作"的正迁移:视频推理任务的引入同时提升了编辑质量,说明多任务学习中理解和生成是互促的
  • 架构简洁性:没有为每个任务设计专用模块,纯靠统一的 DiT + 数据驱动学习,工程复杂度低

局限性 / 可改进方向

  • 视频质量和长度仍不及顶级商业系统(Seedance-2.0/Sora 级别)
  • 视频推理能力相对初步,复杂因果推理场景仍有困难
  • 训练资源需求大(多阶段训练+大规模多任务数据)
  • 自由组合输入的极端情况(如输入 10+ 张参考图)未充分探索
  • 评估主要依赖 FVD/FID 等自动指标,人工评估覆盖不足

相关工作与启发

  • vs CogVideoX/Open-Sora: 这些开源模型主要做 T2V 单任务,OmniWeaving 统一多任务
  • vs Seedance-2.0: 商业系统的对标目标,OmniWeaving 在开源社区首次接近其全能度
  • vs MovieGen: Meta 的多任务视频生成但未开源,OmniWeaving 提供了开源替代

评分

  • 新颖性: ⭐⭐⭐⭐ 统一框架设计新颖
  • 实验充分度: ⭐⭐⭐⭐ 多任务全面评估
  • 写作质量: ⭐⭐⭐⭐ 结构清晰
  • 价值: ⭐⭐⭐⭐⭐ 开源生态重要贡献