Multi-subject Open-set Personalization in Video Generation¶

会议: CVPR 2025
arXiv: 2501.06187
代码: https://github.com/snap-research/MSRVTT-Personalization (有，benchmark 代码)
领域: 视频理解
关键词: 视频个性化生成, 多主体定制, 开放集实体, Diffusion Transformer, 数据增强

一句话总结¶

提出 Video Alchemist，在 Diffusion Transformer 架构中内置多主体、开放集的视频个性化生成能力，支持前景物体和背景的定制，无需测试时优化。

研究背景与动机¶

视频个性化生成旨在合成包含特定人物、宠物、场景的视频，但现有方法存在显著局限：

领域受限：很多方法只支持人脸（Magic-Me）、或单一主体（DreamVideo、VideoBooth），无法处理多主体和开放类别
测试时优化代价高：DreamVideo 等需要对每个新概念进行微调，耗时且易过拟合
前景/背景不可同时定制：大多数方法仅关注前景物体，无法自定义视频背景
Copy-and-paste 问题：从同一视频中提取参考帧和目标帧进行训练时，模型倾向于直接复制参考图的光照、姿态、遮挡等无关信息，而非学习身份特征

核心挑战：如何构建训练数据，并设计模型架构使其能在不需要微调的情况下支持多主体、开放集、含背景的视频个性化？

方法详解¶

整体框架¶

Video Alchemist 基于 latent Diffusion Transformer (DiT) 构建，输入为文本提示 + 多张参考图像（每个实体一张或多张）。核心创新在于 DiT block 中增加了一个专用的 cross-attention 层处理个性化嵌入（personalization embeddings），实现图像-文本概念的绑定与融合。

关键设计¶

图像-文字概念绑定（Binding of Image and Word Concepts）：对每个参考实体，用冻结的 DINOv2 编码器提取图像 token \(x_n \in \mathbb{R}^{l \times d}\)，从文本嵌入中检索对应实体词 token \(c_n\)，将实体词 token 展平并复制 \(l\) 次后与图像 token 沿通道轴拼接，经线性投影 + 残差连接得到个性化嵌入 \(f_n\)。所有实体的嵌入拼接为 \(f = \text{Concat}(f_1, ..., f_N)\)，通过独立 cross-attention 层与视频 token 交互。设计动机：没有绑定机制时，模型会将参考图像应用到错误的主体上（如把人脸贴到狗上）。
自动化数据构建流水线：三步流程——(a) LLM 从字幕中提取实体词（subject/object/background），(b) GroundingDINO + SAM 在视频的首/中/末帧分割目标，(c) 腐蚀膨胀后 inpainting 生成干净背景图。选取不同时间点的帧以捕获姿态和光照变化。
抗过拟合数据增强：针对 copy-and-paste 问题，对参考图像施加多种增强——降采样&高斯模糊（防分辨率过拟合）、颜色抖动&亮度调节（防光照过拟合）、水平翻转/剪切/旋转（防姿态过拟合）。引导模型聚焦于主体身份特征，而非参考图像的无关属性。

损失函数 / 训练策略¶

使用 Rectified Flow 公式进行去噪训练
两阶段训练：第一阶段仅训练文本 cross-attention；第二阶段加入个性化 cross-attention 并全模型微调（with warmup）
图像编码器使用 DINOv2（冻结），比 CLIP 在主体相似度上更优
采用 RoPE 位置编码、Flash Attention、Fused LayerNorm 加速
Self-conditioning 技术增强视觉质量

实验关键数据¶

主实验 — MSRVTT-Personalization（Subject 模式，单参考图）¶

方法	测试优化	Text-S ↑	Vid-S ↑	Subj-S ↑	Dync-D ↑
ELITE	否	0.245	0.620	0.359	-
VideoBooth	否	0.222	0.612	0.395	0.448
DreamVideo	是	0.261	0.611	0.310	0.311
Video Alchemist	否	0.269	0.732	0.617	0.466

用户偏好研究¶

方法	质量偏好 ↑	保真偏好 ↑
ELITE	2.7%	0.6%
VideoBooth	0.3%	0.8%
DreamVideo	0.5%	0.5%
Video Alchemist	96.5%	98.1%

消融实验¶

配置	Text-S ↑	Vid-S ↑	Subj-S ↑	Dync-D ↑	说明
CLIP 编码器	0.269	0.768	0.569	0.552	文本对齐好
DINOv2 无 word token	0.256	0.790	0.566	0.569	概念绑定缺失
DINOv2 无增强	0.251	0.781	0.609	0.506	copy-paste 严重
DINOv2 + word token + 增强	0.257	0.790	0.600	0.570	最佳平衡

关键发现¶

Video Alchemist 在 Subject 相似度上比 VideoBooth 高出 22.2%（0.395 → 0.617）
即使是开放集模型，Face 相似度也超过面部专用模型 IP-Adapter（0.382 vs 0.269）
用户偏好研究中获得 96.5% 的质量偏好和 98.1% 的保真偏好
多参考图输入可进一步提升保真度（单/多 Subj-S: 0.617 → 0.626）
背景参考图使视频与 GT 更相似（Vid-S: 0.743 → 0.780），但略降文本对齐
DINOv2 比 CLIP 更适合捕获独特的物体特征（自监督 vs 文本-图像对齐目标差异）

亮点与洞察¶

架构设计优雅：将个性化能力内置于 DiT block 而非外部适配器，端到端训练
概念绑定机制关键：缺失时多主体场景会出现身份混淆，这个发现对后续工作有参考价值
数据增强的精妙：每种增强都对应一个特定的过拟合模式（分辨率→物体大小，遮挡→生成遮挡物等）
MSRVTT-Personalization 基准：2130 个样本，支持面部/单主体/多主体/前景+背景等多种评测模式
开放集 + 无需微调的范式显著优于需要测试时优化的方法

局限与展望¶

当前分辨率为 \(512 \times 288\)，限制了生成质量
多参考图有时降低文本对齐度，灵活性和保真度之间存在权衡
背景定制仅使用 inpainting 生成的单帧，可能引入伪影
未处理极端场景如参考图严重遮挡或极低分辨率
训练需要大规模带字幕的视频数据集和多步处理流水线

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个多主体+开放集+前景/背景+无微调的视频个性化模型
实验充分度: ⭐⭐⭐⭐⭐ 提出全新 benchmark，定量/定性/用户研究/消融全面
写作质量: ⭐⭐⭐⭐ 结构清晰，数据构建流程图非常直观
价值: ⭐⭐⭐⭐⭐ 对视频个性化生成领域具有重要推动作用