DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning¶

会议: CVPR 2025
arXiv: 2603.12257
代码: 项目主页
领域: 视频生成 / 可控视频生成
关键词: 多主体定制, 全运动控制, 身份保持, 隐空间奖励学习, Video DiT

一句话总结¶

提出 DreamVideo-Omni，通过渐进式两阶段训练范式（Omni-Motion SFT + Latent Identity Reward Feedback Learning），在统一的 DiT 框架中实现多主体定制与全运动控制（全局 bbox + 局部轨迹 + 相机运动）的协同生成。

研究背景与动机¶

领域现状：扩散模型极大推进了视频生成质量，但同时控制多主体身份与多粒度运动仍是开放挑战。主体定制方法和运动控制方法目前沿两条独立路线发展。
现有痛点：
运动控制粒度不足：现有方法仅依赖单一运动信号（bbox / depth / 轨迹），无法同时控制全局位置、局部动态和相机运动
控制歧义：多主体场景下，模型无法区分哪个运动信号对应哪个主体，导致控制混淆
身份退化：引入运动控制后身份保真度下降，因为身份保持需要像素一致性，而运动控制需要像素变化
核心矛盾：身份保持（追求与参考图一致）与运动控制（追求动态变化）的目标本质上冲突，标准扩散重建损失无法调和。
本文要解决什么？ 在单一框架中同时实现：多主体身份保持 + 全运动控制（全局/局部/相机）+ 消除控制歧义。
切入角度：两阶段渐进训练——先用 SFT 建立统一控制能力，再用隐空间身份奖励强化学习提升身份保真度。
核心idea一句话：通过 Group/Role Embedding 显式绑定运动信号到对应主体，并用基于 VDM 的隐空间身份奖励模型在潜在空间内直接反馈强化身份保持。

方法详解¶

整体框架¶

DreamVideo-Omni 基于 Wan2.1-1.3B T2V DiT，采用两阶段训练：

Stage 1 (Omni-Motion & Identity SFT)：联合训练主体外观、全局 bbox 运动、局部轨迹运动、相机运动
Stage 2 (Latent Identity Reward Feedback Learning)：训练隐空间身份奖励模型 LIRM，用 ReFL 强化身份保持

关键设计¶

Condition-Aware 3D RoPE
做什么：为异构输入（视频帧、参考图、轨迹 token）分配不同的时间索引
核心思路：视频帧用顺序索引 [0, T-1]；参考图用统一的 t_ref 标记为静态条件；padding 用 t_pad 标记为无效；轨迹继承视频帧索引保持时空对齐
设计动机：消除异构输入的时序混淆，移除后导致训练崩溃（消融实验中所有指标灾难性下降）
Group & Role Embedding
做什么：显式绑定运动信号到对应主体，消除多主体控制歧义
核心思路：Group Embedding 将⟨参考图, bbox, 轨迹⟩三元组绑为一组，Role Embedding 区分"外观资产"（object embedding）和"运动控制"（control embedding）
设计动机：多主体场景中，不同主体的运动信号必须显式关联，否则模型无法区分
Hierarchical Motion Injection
做什么：在 DiT 的每个 block 层级注入 bbox 条件
核心思路：bbox latents 通过 learnable zero-convolution 加到输入和每个 block 的输出上：h_0 = z_t + Z_in(z_box), h_{l+1} = Block_l(h_l) + Z_l(z_box)
设计动机：仅在输入层融合 bbox 不足以实现精确全局运动控制，多层注入显著提升 mIoU（0.289 → 0.532）
Latent Identity Reward Model (LIRM)
做什么：在隐空间评估生成视频与参考图像的身份一致性
核心思路：利用 VDM 前 8 层作为 backbone，参考图特征作为 Q 对加噪视频特征做 cross-attention，输出标量奖励
设计动机：
- 比 CLIP/DINO 等静态编码器更具运动感知能力，能区分 copy-paste 伪影
- 在隐空间操作避免了高昂的 VAE 解码开销
Latent Identity Reward Feedback Learning (LIReFL)
做什么：用 LIRM 的奖励信号反向传播优化视频生成模型
核心思路：从噪声开始去噪到随机中间步 t_m，做一步有梯度的去噪得到 z_tm，送入冻结的 LIRM 计算奖励，最大化奖励
设计动机：绕过 VAE 解码，支持任意时间步的奖励反馈（非仅最后几步），充分利用 ReFL 潜力

损失函数 / 训练策略¶

Stage 1 SFT Loss：重加权扩散损失，bbox 内区域加权 λ₁=2 增强主体学习
Stage 2 总损失：L = L_sft + λ₂ · L_LIReFL，其中 λ₂=0.1
LIRM 训练：二元交叉熵损失，27500 训练视频 + 500 测试视频的偏好数据集
条件 dropout：bbox 和轨迹条件以 p=0.5 随机丢弃，参考图增强同概率

实验关键数据¶

主实验¶

DreamOmni Bench 综合对比

方法	R-CLIP↑	R-DINO↑	Face-S↑	mIoU↑	EPE↓	CLIP-T↑
DreamVideo-2	0.731	0.429	0.157	0.212	24.05	0.297
DreamVideo-Omni	0.739	0.499	0.301	0.558	9.31	0.308

MSRVTT-Personalization 对比（Subject Mode / Face Mode）

方法	CLIP-T↑	R-DINO↑	EPE↓	Face-S↑
Video Alchemist	0.268	0.626	-	0.411
Tora2	0.273	0.615	17.43	0.419
DreamVideo-Omni	0.273	0.628	11.21	0.417

运动控制对比（DreamOmni Bench）

方法	单主体 mIoU↑	单主体 EPE↓	多主体 mIoU↑	多主体 EPE↓
Tora (1.1B)	0.163	31.74	0.162	32.84
Wan-Move (14B)	0.507	14.43	0.541	9.02
Ours (1.3B)	0.558	9.31	0.570	6.08

消融实验¶

各组件消融（DreamOmni Bench - Single/Multi Subject）

方法	R-DINO↑	Face-S↑	mIoU↑	EPE↓
w/o Cond-Aware 3D RoPE（单主体）	0.139	0.039	0.274	30.22
w/o Group & Role Emb.（多主体）	0.503	0.289	0.459	20.69
w/o Hierarchical BBox Inject.（多主体）	0.510	0.269	0.289	25.56
Ours Stage1（多主体）	0.506	0.287	0.532	6.80
w/o LIReFL（多主体）	0.512	0.316	0.556	6.29
Ours Full（多主体）	0.524	0.329	0.570	6.08

用户研究（联合主体+运动 vs DreamVideo-2）

维度	DreamVideo-2	Ours
Subject Fidelity	22.4%	77.6%
Motion Consistency	18.3%	81.7%
Overall Quality	10.8%	89.2%

关键发现¶

1.3B 参数的 DreamVideo-Omni 在运动控制上超越 14B 的 Wan-Move，参数效率极高
移除 Condition-Aware 3D RoPE 导致训练崩溃，是框架的基石组件
移除 Hierarchical BBox Injection 后多主体 mIoU 从 0.532 降至 0.289，证明多层注入不可或缺
LIReFL 在所有身份保持指标上稳定提升，同时不损害运动控制精度
框架涌现出零样本 I2V 生成和首帧条件轨迹控制能力（尽管仅在 T2V 上训练）

亮点与洞察¶

控制信号的显式绑定：Group + Role Embedding 将⟨主体, bbox, 轨迹⟩绑为结构化三元组，从根本上解决多主体歧义问题，思路清晰有效
隐空间奖励学习：基于 VDM 的 LIRM 直接在 latent space 计算奖励，避免 VAE 解码开销，且具有运动感知能力，比 CLIP/DINO 更适合视频场景
相机运动的统一控制：将相机运动视为背景点轨迹，与局部运动统一在同一轨迹条件机制下，避免了额外的 3D 相机参数估计
大规模数据工程：2.12M 视频的完整流水线（运动过滤 → 主体发现 → 时空标注 → 参考图构建），数据质量是效果保证
涌现能力：多任务训练自然解锁 I2V 和首帧条件轨迹控制，展示框架的泛化性

局限性 / 可改进方向¶

分辨率和帧数限制：当前仅支持 480×832 / 49 帧，对高分辨率长视频的扩展有待验证
基础模型依赖：基于 Wan2.1-1.3B，更大模型（如 14B）可能有进一步提升空间
LIRM 的泛化性：奖励模型在特定偏好数据上训练，对未覆盖的主体类型的泛化性未充分验证
多主体数量上限：Grid attention 的 padding 机制暗示有固定容量限制 N_max
复杂运动的上界：极端运动和遮挡场景下的表现未详细讨论

评分¶

新颖性: ⭐⭐⭐⭐ (各组件有创新但非范式突破，隐空间奖励学习是主要亮点)
实验充分度: ⭐⭐⭐⭐⭐ (自建 benchmark + 大量消融 + 用户研究，非常全面)
写作质量: ⭐⭐⭐⭐ (结构清晰但篇幅较长，部分内容可精简)
价值: ⭐⭐⭐⭐⭐ (多主体+全运动的统一框架有重大实用价值)