跳转至

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

会议: CVPR 2025
arXiv: 2603.12257
代码: 项目主页
领域: 视频生成 / 可控视频生成
关键词: 多主体定制, 全运动控制, 身份保持, 隐空间奖励学习, Video DiT

一句话总结

提出 DreamVideo-Omni,通过渐进式两阶段训练范式(Omni-Motion SFT + Latent Identity Reward Feedback Learning),在统一的 DiT 框架中实现多主体定制与全运动控制(全局 bbox + 局部轨迹 + 相机运动)的协同生成。

研究背景与动机

  1. 领域现状:扩散模型极大推进了视频生成质量,但同时控制多主体身份与多粒度运动仍是开放挑战。主体定制方法和运动控制方法目前沿两条独立路线发展。
  2. 现有痛点
  3. 运动控制粒度不足:现有方法仅依赖单一运动信号(bbox / depth / 轨迹),无法同时控制全局位置、局部动态和相机运动
  4. 控制歧义:多主体场景下,模型无法区分哪个运动信号对应哪个主体,导致控制混淆
  5. 身份退化:引入运动控制后身份保真度下降,因为身份保持需要像素一致性,而运动控制需要像素变化
  6. 核心矛盾:身份保持(追求与参考图一致)与运动控制(追求动态变化)的目标本质上冲突,标准扩散重建损失无法调和。
  7. 本文要解决什么? 在单一框架中同时实现:多主体身份保持 + 全运动控制(全局/局部/相机)+ 消除控制歧义。
  8. 切入角度:两阶段渐进训练——先用 SFT 建立统一控制能力,再用隐空间身份奖励强化学习提升身份保真度。
  9. 核心idea一句话:通过 Group/Role Embedding 显式绑定运动信号到对应主体,并用基于 VDM 的隐空间身份奖励模型在潜在空间内直接反馈强化身份保持。

方法详解

整体框架

DreamVideo-Omni 基于 Wan2.1-1.3B T2V DiT,采用两阶段训练:

  • Stage 1 (Omni-Motion & Identity SFT):联合训练主体外观、全局 bbox 运动、局部轨迹运动、相机运动
  • Stage 2 (Latent Identity Reward Feedback Learning):训练隐空间身份奖励模型 LIRM,用 ReFL 强化身份保持

关键设计

  1. Condition-Aware 3D RoPE
  2. 做什么:为异构输入(视频帧、参考图、轨迹 token)分配不同的时间索引
  3. 核心思路:视频帧用顺序索引 [0, T-1];参考图用统一的 t_ref 标记为静态条件;padding 用 t_pad 标记为无效;轨迹继承视频帧索引保持时空对齐
  4. 设计动机:消除异构输入的时序混淆,移除后导致训练崩溃(消融实验中所有指标灾难性下降)

  5. Group & Role Embedding

  6. 做什么:显式绑定运动信号到对应主体,消除多主体控制歧义
  7. 核心思路:Group Embedding 将⟨参考图, bbox, 轨迹⟩三元组绑为一组,Role Embedding 区分"外观资产"(object embedding)和"运动控制"(control embedding)
  8. 设计动机:多主体场景中,不同主体的运动信号必须显式关联,否则模型无法区分

  9. Hierarchical Motion Injection

  10. 做什么:在 DiT 的每个 block 层级注入 bbox 条件
  11. 核心思路:bbox latents 通过 learnable zero-convolution 加到输入和每个 block 的输出上:h_0 = z_t + Z_in(z_box), h_{l+1} = Block_l(h_l) + Z_l(z_box)
  12. 设计动机:仅在输入层融合 bbox 不足以实现精确全局运动控制,多层注入显著提升 mIoU(0.289 → 0.532)

  13. Latent Identity Reward Model (LIRM)

  14. 做什么:在隐空间评估生成视频与参考图像的身份一致性
  15. 核心思路:利用 VDM 前 8 层作为 backbone,参考图特征作为 Q 对加噪视频特征做 cross-attention,输出标量奖励
  16. 设计动机

    • 比 CLIP/DINO 等静态编码器更具运动感知能力,能区分 copy-paste 伪影
    • 在隐空间操作避免了高昂的 VAE 解码开销
  17. Latent Identity Reward Feedback Learning (LIReFL)

  18. 做什么:用 LIRM 的奖励信号反向传播优化视频生成模型
  19. 核心思路:从噪声开始去噪到随机中间步 t_m,做一步有梯度的去噪得到 z_tm,送入冻结的 LIRM 计算奖励,最大化奖励
  20. 设计动机:绕过 VAE 解码,支持任意时间步的奖励反馈(非仅最后几步),充分利用 ReFL 潜力

损失函数 / 训练策略

  • Stage 1 SFT Loss:重加权扩散损失,bbox 内区域加权 λ₁=2 增强主体学习
  • Stage 2 总损失:L = L_sft + λ₂ · L_LIReFL,其中 λ₂=0.1
  • LIRM 训练:二元交叉熵损失,27500 训练视频 + 500 测试视频的偏好数据集
  • 条件 dropout:bbox 和轨迹条件以 p=0.5 随机丢弃,参考图增强同概率

实验关键数据

主实验

DreamOmni Bench 综合对比

方法 R-CLIP↑ R-DINO↑ Face-S↑ mIoU↑ EPE↓ CLIP-T↑
DreamVideo-2 0.731 0.429 0.157 0.212 24.05 0.297
DreamVideo-Omni 0.739 0.499 0.301 0.558 9.31 0.308

MSRVTT-Personalization 对比(Subject Mode / Face Mode)

方法 CLIP-T↑ R-DINO↑ EPE↓ Face-S↑
Video Alchemist 0.268 0.626 - 0.411
Tora2 0.273 0.615 17.43 0.419
DreamVideo-Omni 0.273 0.628 11.21 0.417

运动控制对比(DreamOmni Bench)

方法 单主体 mIoU↑ 单主体 EPE↓ 多主体 mIoU↑ 多主体 EPE↓
Tora (1.1B) 0.163 31.74 0.162 32.84
Wan-Move (14B) 0.507 14.43 0.541 9.02
Ours (1.3B) 0.558 9.31 0.570 6.08

消融实验

各组件消融(DreamOmni Bench - Single/Multi Subject)

方法 R-DINO↑ Face-S↑ mIoU↑ EPE↓
w/o Cond-Aware 3D RoPE(单主体) 0.139 0.039 0.274 30.22
w/o Group & Role Emb.(多主体) 0.503 0.289 0.459 20.69
w/o Hierarchical BBox Inject.(多主体) 0.510 0.269 0.289 25.56
Ours Stage1(多主体) 0.506 0.287 0.532 6.80
w/o LIReFL(多主体) 0.512 0.316 0.556 6.29
Ours Full(多主体) 0.524 0.329 0.570 6.08

用户研究(联合主体+运动 vs DreamVideo-2)

维度 DreamVideo-2 Ours
Subject Fidelity 22.4% 77.6%
Motion Consistency 18.3% 81.7%
Overall Quality 10.8% 89.2%

关键发现

  • 1.3B 参数的 DreamVideo-Omni 在运动控制上超越 14B 的 Wan-Move,参数效率极高
  • 移除 Condition-Aware 3D RoPE 导致训练崩溃,是框架的基石组件
  • 移除 Hierarchical BBox Injection 后多主体 mIoU 从 0.532 降至 0.289,证明多层注入不可或缺
  • LIReFL 在所有身份保持指标上稳定提升,同时不损害运动控制精度
  • 框架涌现出零样本 I2V 生成和首帧条件轨迹控制能力(尽管仅在 T2V 上训练)

亮点与洞察

  1. 控制信号的显式绑定:Group + Role Embedding 将⟨主体, bbox, 轨迹⟩绑为结构化三元组,从根本上解决多主体歧义问题,思路清晰有效
  2. 隐空间奖励学习:基于 VDM 的 LIRM 直接在 latent space 计算奖励,避免 VAE 解码开销,且具有运动感知能力,比 CLIP/DINO 更适合视频场景
  3. 相机运动的统一控制:将相机运动视为背景点轨迹,与局部运动统一在同一轨迹条件机制下,避免了额外的 3D 相机参数估计
  4. 大规模数据工程:2.12M 视频的完整流水线(运动过滤 → 主体发现 → 时空标注 → 参考图构建),数据质量是效果保证
  5. 涌现能力:多任务训练自然解锁 I2V 和首帧条件轨迹控制,展示框架的泛化性

局限性 / 可改进方向

  1. 分辨率和帧数限制:当前仅支持 480×832 / 49 帧,对高分辨率长视频的扩展有待验证
  2. 基础模型依赖:基于 Wan2.1-1.3B,更大模型(如 14B)可能有进一步提升空间
  3. LIRM 的泛化性:奖励模型在特定偏好数据上训练,对未覆盖的主体类型的泛化性未充分验证
  4. 多主体数量上限:Grid attention 的 padding 机制暗示有固定容量限制 N_max
  5. 复杂运动的上界:极端运动和遮挡场景下的表现未详细讨论

相关工作与启发

  • 与 DreamVideo-2 的关系:本文是 DreamVideo 系列的延续,从单主体+bbox 扩展到多主体+全运动
  • 与 Wan-Move 的关系:Wan-Move 专注点轨迹控制(14B I2V),本文 1.3B T2V 即超越之,展示了架构设计的重要性
  • 与 IPRO/Identity-GRPO 的关系:这些方法在 pixel space 计算奖励需要 VAE 解码,本文 latent space 方案更高效
  • 启发:隐空间奖励模型的设计思路可推广到其他生成任务(如音频、3D),绑定机制的设计对多实体可控生成有普适价值

评分

  • 新颖性: ⭐⭐⭐⭐ (各组件有创新但非范式突破,隐空间奖励学习是主要亮点)
  • 实验充分度: ⭐⭐⭐⭐⭐ (自建 benchmark + 大量消融 + 用户研究,非常全面)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰但篇幅较长,部分内容可精简)
  • 价值: ⭐⭐⭐⭐⭐ (多主体+全运动的统一框架有重大实用价值)