OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions¶

会议: NeurIPS 2025
arXiv: 2506.23361
代码: https://caiyuanhao1998.github.io/project/OmniVCus/ (项目页面)
领域: 扩散模型 / 视频定制生成
关键词: 主体驱动视频定制, 多模态控制, DiT, 多主体生成, 前馈生成

一句话总结¶

OmniVCus 提出了一个前馈式 DiT 框架，通过数据构建流水线 VideoCus-Factory 和两种嵌入机制（Lottery Embedding 和 Temporally Aligned Embedding），实现了多主体、多模态控制条件下的视频定制生成，在身份保持和可控性上显著超越 SOTA。

研究背景与动机¶

主体驱动视频定制（subject-driven video customization）旨在根据用户提供的参考图像，生成包含特定身份主体的视频。现有前馈方法面临三大挑战：

多主体数据构建困难：ConceptMaster 仅支持有限类别，Video Alchemist 依赖稀缺的高质量文本-视频对，数据规模有限

推理时主体数量受限：训练视频中主体数量有限（通常1-2个），如何在推理时组合更多主体尚未被充分探索

多模态控制条件缺失：如何将深度图、分割掩码、相机轨迹、文本编辑指令等控制信号融入主体驱动定制，仍是开放问题

核心 idea：构建大规模多主体训练数据，设计两种特殊的位置嵌入机制，使单一 DiT 模型能灵活组合不同模态的控制信号。

方法详解¶

整体框架¶

OmniVCus 基于 DiT 架构，将文本、图像、视频和控制信号通过 patchify 编码后拼接为一维长 token 序列输入模型。模型可混合训练多种任务：单/双主体定制、深度/掩码到视频、文本到多视角、文本到图像/视频、图像编辑等。

关键设计¶

VideoCus-Factory 数据构建流水线
- 视频字幕：随机从视频中选一帧，用 Kosmos-2 生成描述并检测主体，插入 IMG1/IMG2 等图像标签
- 主体过滤：用 SAM-2 跟踪和分割主体，过滤分割失败的情况（如遮挡严重的物体）
- 数据增强：对分割出的主体进行随机旋转、缩放、居中、颜色增强，并随机放置背景图。这避免了训练中主体位置/大小/背景泄露，防止 copy-paste 效应
- 控制信号生成：同时构建 mask-to-video（主体掩码序列）和 depth-to-video（深度序列）的训练数据对。这些控制数据与主体定制数据不配对，但推理时可灵活组合
Lottery Embedding (LE)
- 核心动机：训练视频中主体数量 K 有限，但推理时希望组合 M > K 个主体
- 设计思路：从 [1, M] 中均匀随机采样 K 个数作为集合 S，排序后作为帧位置嵌入分配给 K 个训练主体
- 效果：训练时激活了更多帧位置嵌入，使得推理时可以零样本地组合更多主体（如训练2个主体但推理4个）
Temporally Aligned Embedding (TAE)
- 核心动机：深度、掩码等控制信号与生成视频时间对齐，应共享相同的时间位置信息
- 设计思路：对于密集语义控制信号（深度/掩码），用 3D-VAE 编码后与噪声 token 共享相同帧位置嵌入 {M+1, ..., M+N}；仅在噪声 token 上添加时间步嵌入以区分
- 对于稀疏的相机信号（Plücker 坐标），通过 MLP 映射后直接加到噪声 token 上以减少 token 长度
Image-Video Transfer Mixed (IVTM) 训练
- 动机：缺乏主体定制+编辑指令的训练数据
- 方法：将图像编辑数据与单主体图像/视频定制数据混合训练，通过对齐帧位置嵌入实现编辑效果从图像到视频的迁移
- 推理时组合编辑指令和主体定制 prompt 即可激活编辑效果

损失函数 / 训练策略¶

采用 flow-matching 损失进行联合训练
线性插值产生噪声输入：\(X^t = tX^1 + (1-t)X^0\)
模型预测速度场 \(V^t = X^1 - X^0\)
不同任务的训练数据互不配对，某些输入条件在不同样本中自然缺失
基于 5B 参数的 T2V DiT 微调 100K 步，batch size 356，64 张 A100

实验关键数据¶

主实验¶

方法	主体数	CLIP-T	CLIP-I	DINO-I	一致性	动态度
VideoBooth	单	0.2541	0.5891	0.3033	0.9593	0.4287
DreamVideo	单	0.2799	0.6214	0.3792	0.9609	0.4696
Wan2.1-I2V	单	0.2785	0.6319	0.4203	0.9754	0.5310
SkyReels	单	0.2820	0.6609	0.4612	0.9797	0.5238
OmniVCus	单	0.3293	0.7154	0.5215	0.9928	0.5541
SkyReels	多	0.2785	0.6429	0.4107	0.9710	0.5892
OmniVCus	多	0.3264	0.6672	0.4965	0.9908	0.6878

消融实验¶

配置	CLIP-T	DINO-I	一致性	动态度
基线（无过滤/增强）	0.2175	0.2405	0.9588	0.3759
+主体过滤	0.2431	0.5053	0.9617	0.3826
+数据增强	0.3293	0.5215	0.9928	0.5541

TAE 消融	CLIP-T	DINO-I	一致性	动态度
Naive 嵌入	0.2618	0.2947	0.9751	0.4948
加到噪声	0.1722	0.1680	0.9319	0.5437
TAE	0.3054	0.3794	0.9909	0.4965

LE 消融（多主体）	CLIP-T	DINO-I	一致性	动态度
无 LE	0.2105	0.3364	0.9702	0.6943
有 LE	0.2728	0.4163	0.9810	0.6806

关键发现¶

数据增强中的随机背景放置极大改善了视频的动态多样性（动态度从 0.38 提升到 0.55）
TAE 中直接将深度加到噪声会导致模型崩溃，因为精细空间信息被噪声破坏
LE 使推理时组合3-4个主体成为可能，DINO-I 提升 0.08
IVTM 训练策略显著优于直接混合训练（CLIP-T: 0.3126 vs 0.2585）

亮点与洞察¶

VideoCus-Factory 流水线设计巧妙，从无标签原始视频自动构建多主体训练对和控制信号数据
Lottery Embedding 以简洁的方式实现了训练时少量主体到推理时多主体的泛化，核心是随机激活更多帧位置嵌入
TAE 的设计灵感来自控制信号与视频帧的时间对齐关系，对密集和稀疏信号采用不同处理策略
用户偏好研究（37人）显示 OmniVCus 在身份保持、对齐和质量三方面均大幅领先

局限与展望¶

依赖内部大规模视频数据池，复现门槛较高（64 A100, 300M 文生图数据）
Kosmos-2 和 SAM-2 的检测/分割质量直接影响数据质量
主体之间的交互和遮挡关系处理仍有改进空间
指令编辑的 hard case（如风格迁移）效果有限

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐