DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning¶
会议: CVPR 2025
arXiv: 2603.12257
代码: 项目主页
领域: 视频生成 / 可控视频生成
关键词: 多主体定制, 全运动控制, 身份保持, 隐空间奖励学习, Video DiT
一句话总结¶
提出 DreamVideo-Omni,通过渐进式两阶段训练范式(Omni-Motion SFT + Latent Identity Reward Feedback Learning),在统一的 DiT 框架中实现多主体定制与全运动控制(全局 bbox + 局部轨迹 + 相机运动)的协同生成。
研究背景与动机¶
- 领域现状:扩散模型极大推进了视频生成质量,但同时控制多主体身份与多粒度运动仍是开放挑战。主体定制方法和运动控制方法目前沿两条独立路线发展。
- 现有痛点:
- 运动控制粒度不足:现有方法仅依赖单一运动信号(bbox / depth / 轨迹),无法同时控制全局位置、局部动态和相机运动
- 控制歧义:多主体场景下,模型无法区分哪个运动信号对应哪个主体,导致控制混淆
- 身份退化:引入运动控制后身份保真度下降,因为身份保持需要像素一致性,而运动控制需要像素变化
- 核心矛盾:身份保持(追求与参考图一致)与运动控制(追求动态变化)的目标本质上冲突,标准扩散重建损失无法调和。
- 本文要解决什么? 在单一框架中同时实现:多主体身份保持 + 全运动控制(全局/局部/相机)+ 消除控制歧义。
- 切入角度:两阶段渐进训练——先用 SFT 建立统一控制能力,再用隐空间身份奖励强化学习提升身份保真度。
- 核心idea一句话:通过 Group/Role Embedding 显式绑定运动信号到对应主体,并用基于 VDM 的隐空间身份奖励模型在潜在空间内直接反馈强化身份保持。
方法详解¶
整体框架¶
DreamVideo-Omni 基于 Wan2.1-1.3B T2V DiT,采用两阶段训练:
- Stage 1 (Omni-Motion & Identity SFT):联合训练主体外观、全局 bbox 运动、局部轨迹运动、相机运动
- Stage 2 (Latent Identity Reward Feedback Learning):训练隐空间身份奖励模型 LIRM,用 ReFL 强化身份保持
关键设计¶
- Condition-Aware 3D RoPE
- 做什么:为异构输入(视频帧、参考图、轨迹 token)分配不同的时间索引
- 核心思路:视频帧用顺序索引 [0, T-1];参考图用统一的 t_ref 标记为静态条件;padding 用 t_pad 标记为无效;轨迹继承视频帧索引保持时空对齐
-
设计动机:消除异构输入的时序混淆,移除后导致训练崩溃(消融实验中所有指标灾难性下降)
-
Group & Role Embedding
- 做什么:显式绑定运动信号到对应主体,消除多主体控制歧义
- 核心思路:Group Embedding 将⟨参考图, bbox, 轨迹⟩三元组绑为一组,Role Embedding 区分"外观资产"(object embedding)和"运动控制"(control embedding)
-
设计动机:多主体场景中,不同主体的运动信号必须显式关联,否则模型无法区分
-
Hierarchical Motion Injection
- 做什么:在 DiT 的每个 block 层级注入 bbox 条件
- 核心思路:bbox latents 通过 learnable zero-convolution 加到输入和每个 block 的输出上:h_0 = z_t + Z_in(z_box), h_{l+1} = Block_l(h_l) + Z_l(z_box)
-
设计动机:仅在输入层融合 bbox 不足以实现精确全局运动控制,多层注入显著提升 mIoU(0.289 → 0.532)
-
Latent Identity Reward Model (LIRM)
- 做什么:在隐空间评估生成视频与参考图像的身份一致性
- 核心思路:利用 VDM 前 8 层作为 backbone,参考图特征作为 Q 对加噪视频特征做 cross-attention,输出标量奖励
-
设计动机:
- 比 CLIP/DINO 等静态编码器更具运动感知能力,能区分 copy-paste 伪影
- 在隐空间操作避免了高昂的 VAE 解码开销
-
Latent Identity Reward Feedback Learning (LIReFL)
- 做什么:用 LIRM 的奖励信号反向传播优化视频生成模型
- 核心思路:从噪声开始去噪到随机中间步 t_m,做一步有梯度的去噪得到 z_tm,送入冻结的 LIRM 计算奖励,最大化奖励
- 设计动机:绕过 VAE 解码,支持任意时间步的奖励反馈(非仅最后几步),充分利用 ReFL 潜力
损失函数 / 训练策略¶
- Stage 1 SFT Loss:重加权扩散损失,bbox 内区域加权 λ₁=2 增强主体学习
- Stage 2 总损失:L = L_sft + λ₂ · L_LIReFL,其中 λ₂=0.1
- LIRM 训练:二元交叉熵损失,27500 训练视频 + 500 测试视频的偏好数据集
- 条件 dropout:bbox 和轨迹条件以 p=0.5 随机丢弃,参考图增强同概率
实验关键数据¶
主实验¶
DreamOmni Bench 综合对比
| 方法 | R-CLIP↑ | R-DINO↑ | Face-S↑ | mIoU↑ | EPE↓ | CLIP-T↑ |
|---|---|---|---|---|---|---|
| DreamVideo-2 | 0.731 | 0.429 | 0.157 | 0.212 | 24.05 | 0.297 |
| DreamVideo-Omni | 0.739 | 0.499 | 0.301 | 0.558 | 9.31 | 0.308 |
MSRVTT-Personalization 对比(Subject Mode / Face Mode)
| 方法 | CLIP-T↑ | R-DINO↑ | EPE↓ | Face-S↑ |
|---|---|---|---|---|
| Video Alchemist | 0.268 | 0.626 | - | 0.411 |
| Tora2 | 0.273 | 0.615 | 17.43 | 0.419 |
| DreamVideo-Omni | 0.273 | 0.628 | 11.21 | 0.417 |
运动控制对比(DreamOmni Bench)
| 方法 | 单主体 mIoU↑ | 单主体 EPE↓ | 多主体 mIoU↑ | 多主体 EPE↓ |
|---|---|---|---|---|
| Tora (1.1B) | 0.163 | 31.74 | 0.162 | 32.84 |
| Wan-Move (14B) | 0.507 | 14.43 | 0.541 | 9.02 |
| Ours (1.3B) | 0.558 | 9.31 | 0.570 | 6.08 |
消融实验¶
各组件消融(DreamOmni Bench - Single/Multi Subject)
| 方法 | R-DINO↑ | Face-S↑ | mIoU↑ | EPE↓ |
|---|---|---|---|---|
| w/o Cond-Aware 3D RoPE(单主体) | 0.139 | 0.039 | 0.274 | 30.22 |
| w/o Group & Role Emb.(多主体) | 0.503 | 0.289 | 0.459 | 20.69 |
| w/o Hierarchical BBox Inject.(多主体) | 0.510 | 0.269 | 0.289 | 25.56 |
| Ours Stage1(多主体) | 0.506 | 0.287 | 0.532 | 6.80 |
| w/o LIReFL(多主体) | 0.512 | 0.316 | 0.556 | 6.29 |
| Ours Full(多主体) | 0.524 | 0.329 | 0.570 | 6.08 |
用户研究(联合主体+运动 vs DreamVideo-2)
| 维度 | DreamVideo-2 | Ours |
|---|---|---|
| Subject Fidelity | 22.4% | 77.6% |
| Motion Consistency | 18.3% | 81.7% |
| Overall Quality | 10.8% | 89.2% |
关键发现¶
- 1.3B 参数的 DreamVideo-Omni 在运动控制上超越 14B 的 Wan-Move,参数效率极高
- 移除 Condition-Aware 3D RoPE 导致训练崩溃,是框架的基石组件
- 移除 Hierarchical BBox Injection 后多主体 mIoU 从 0.532 降至 0.289,证明多层注入不可或缺
- LIReFL 在所有身份保持指标上稳定提升,同时不损害运动控制精度
- 框架涌现出零样本 I2V 生成和首帧条件轨迹控制能力(尽管仅在 T2V 上训练)
亮点与洞察¶
- 控制信号的显式绑定:Group + Role Embedding 将⟨主体, bbox, 轨迹⟩绑为结构化三元组,从根本上解决多主体歧义问题,思路清晰有效
- 隐空间奖励学习:基于 VDM 的 LIRM 直接在 latent space 计算奖励,避免 VAE 解码开销,且具有运动感知能力,比 CLIP/DINO 更适合视频场景
- 相机运动的统一控制:将相机运动视为背景点轨迹,与局部运动统一在同一轨迹条件机制下,避免了额外的 3D 相机参数估计
- 大规模数据工程:2.12M 视频的完整流水线(运动过滤 → 主体发现 → 时空标注 → 参考图构建),数据质量是效果保证
- 涌现能力:多任务训练自然解锁 I2V 和首帧条件轨迹控制,展示框架的泛化性
局限性 / 可改进方向¶
- 分辨率和帧数限制:当前仅支持 480×832 / 49 帧,对高分辨率长视频的扩展有待验证
- 基础模型依赖:基于 Wan2.1-1.3B,更大模型(如 14B)可能有进一步提升空间
- LIRM 的泛化性:奖励模型在特定偏好数据上训练,对未覆盖的主体类型的泛化性未充分验证
- 多主体数量上限:Grid attention 的 padding 机制暗示有固定容量限制 N_max
- 复杂运动的上界:极端运动和遮挡场景下的表现未详细讨论
相关工作与启发¶
- 与 DreamVideo-2 的关系:本文是 DreamVideo 系列的延续,从单主体+bbox 扩展到多主体+全运动
- 与 Wan-Move 的关系:Wan-Move 专注点轨迹控制(14B I2V),本文 1.3B T2V 即超越之,展示了架构设计的重要性
- 与 IPRO/Identity-GRPO 的关系:这些方法在 pixel space 计算奖励需要 VAE 解码,本文 latent space 方案更高效
- 启发:隐空间奖励模型的设计思路可推广到其他生成任务(如音频、3D),绑定机制的设计对多实体可控生成有普适价值
评分¶
- 新颖性: ⭐⭐⭐⭐ (各组件有创新但非范式突破,隐空间奖励学习是主要亮点)
- 实验充分度: ⭐⭐⭐⭐⭐ (自建 benchmark + 大量消融 + 用户研究,非常全面)
- 写作质量: ⭐⭐⭐⭐ (结构清晰但篇幅较长,部分内容可精简)
- 价值: ⭐⭐⭐⭐⭐ (多主体+全运动的统一框架有重大实用价值)