Identity-Consistent Video Generation under Large Facial-Angle Variations¶

日期: 2026-03-22
arXiv: 2603.21299
代码: 无
领域: 视频理解
关键词: video generation, identity consistency, multi-view conditioning, RoPE, region masking

一句话总结¶

提出 Mv²ID 框架，用多视角参考图引导视频生成——通过 Region Masking 防止"视角锁定"复制伪影 + Reference-Decoupled RoPE 区分时空编码，在大角度人脸变化下保持身份一致性并生成自然运动。

领域现状: 基于参考图的身份保持视频生成已有不少工作（IP-Adapter、InstantID 等），多用单张参考图 + 文本控制生成视频。
现有痛点: (a) 单视角参考图在大角度姿态变化时信息不足——侧面/背面无法从正面参考推断；(b) 使用多视角参考时出现"view-dependent copy-paste"伪影——人脸直接锁定到特定参考角度，运动不自然；(c) 获取 cross-paired 数据（同一人不同表情×不同角度）成本极高（<5%数据满足要求）。
核心矛盾: 多视角参考提供了更多信息，但也带来了直接复制而非融合生成的快捷路径。模型倾向于按角度匹配直接选择最近的参考视角粘贴。
核心 idea: 在 in-paired（同主体同场景多视角）数据上训练，用 Region Masking 迫使模型聚合互补信息而非复制单一视角，用 Decoupled RoPE 正确编码多参考图的时空关系。

多张参考图 token 拼接到视频 noisy token 序列上 → 共享 self-attention 实现跨参考交互 → Region Masking 随机遮挡 60% 参考区域 → RD-RoPE 为每张参考分配独立空间坐标 → 去噪生成视频。

Token-level 多视角注入:
- 将参考图编码为 clean tokens，与 noisy video tokens 沿序列维度拼接
- 标准 self-attention 自然实现视频-参考和参考间的交互
- 简单直接，不引入额外跨注意力模块
Region Masking (RM):
- MAE 启发：随机对每张参考图施加空间 binary mask，遮挡 60% 区域
- 强制模型从多张不完整参考中聚合互补线索，学习视角不变表征
- 防止模型走捷径直接按角度匹配复制参考图
- 训练时 mask、推理时不 mask
Reference-Decoupled RoPE (RD-RoPE):
- 问题：标准 RoPE 会给多张参考图错误的时空位置编码
- 解决：时间维度——所有参考图共享同一时间索引（"时间等价"），空间维度——每张参考图偏移不同的空间坐标（"空间区分"）
- \(h_i = h_v + i \cdot H, w_i = w_v + i \cdot W\)，将参考图在空间上"铺开"
大角度数据集构建:
- 三阶段 pipeline：粗过滤 → 分割追踪 → 3D 姿态估计挖掘角度
- 产出 22K 视频，覆盖 30+ 身份，包含大角度人脸变化

方法	MvRC (ArcFace)	NaturalScore	AES	IQA
HuMo	0.493	4.71	0.562	0.622
MAGREF-MV	—	4.43	—	—
Mv²ID	0.544	4.69	0.568	0.645

配置	MvRC	NaturalScore	说明
Base multi-view	good	baseline	多视角已有基础优势
+ RM	+slight drop	+0.52	定量身份略降但运动更自然
+ RD-RoPE	—	+0.23	空间编码改善
+ RM + RD-RoPE	best	+0.82	组合效果最优