MagicMirror: ID-Preserved Video Generation in Video Diffusion Transformers¶

会议: ICCV 2025
arXiv: 2501.03931
代码: https://github.com/dvlab-research/MagicMirror/
领域: 扩散模型
关键词: 身份保持视频生成、扩散Transformer、面部特征提取、自适应归一化、两阶段训练

一句话总结¶

MagicMirror 是首个基于 Video Diffusion Transformer（CogVideoX）实现零样本身份保持视频生成的框架，通过双分支面部特征提取、条件自适应归一化（CAN）和图像预训练+视频微调两阶段策略，在保持人脸身份一致性的同时生成高质量动态视频。

研究背景与动机¶

领域现状：扩散模型在文本到图像生成领域已取得巨大成功，身份保持（ID-preserving）图像生成方法如 PhotoMaker、InstantID、PuLID 等实现了在不微调的情况下保持特定人物身份。然而在视频生成领域，这一能力仍然欠缺。

现有痛点：现有 ID 保持视频生成方法存在两类局限：(1) MagicMe 等基于微调的方法需要对每个身份进行单独优化，效率低且泛化性差；(2) ID-Animator 等基于 inflated UNet 的方法受限于基础模型能力，生成的视频动态范围有限，面部表情几乎是静态的"复制粘贴"，无法产生自然的面部动作。另一类两阶段方法先用图像个性化生成参考图再做 I2V，在长序列中身份稳定性差。

核心矛盾：先进的视频生成模型（如 CogVideoX）基于 full-attention DiT 架构，与传统的 cross-attention 条件注入方式不兼容。DiT 使用层级分布调制（layer-wise modulation）而非独立的 cross-attention，这使得将身份条件整合到 DiT 中变得复杂。此外，高质量的身份-视频配对训练数据极度匮乏。

本文目标：在 Video DiT 架构上实现无需针对特定人物微调的 ID 保持视频生成，同时保持动态自然的面部运动。

切入角度：利用 CogVideoX 已有的层级调制机制，设计轻量级的身份条件适配器；通过合成数据 + 渐进式训练解决数据稀缺问题。

核心 idea：设计条件自适应归一化（CAN）模块来预测身份相关的分布偏移，结合双分支面部特征提取（高层身份 + 结构细节），实现身份信息在 DiT 中的高效融合。

方法详解¶

整体框架¶

MagicMirror 基于 CogVideoX-5B 构建。输入是一张或多张人脸参考图和文本 prompt。左侧的双分支特征提取器分别提取身份嵌入和面部结构嵌入。这些嵌入通过跨模态适配器（包含 CAN 和解耦交叉注意力）注入到 DiT 的交替层中。训练分两个阶段：先在图像数据上预训练身份保持能力，再在视频数据上微调时序一致性。

关键设计¶

双分支面部特征提取（Decoupled Facial Feature Extraction）:
- 功能：同时捕获高层身份语义和面部结构细节信息
- 核心思路：从预训练的 CLIP ViT 提取稠密特征图 \(\mathbf{f}\)。ID 分支使用 ArcFace 提取高层身份特征 \(\mathbf{q}_{id}\)，通过 Q-Former 架构对 \(\mathbf{f}\) 做交叉注意力得到 \(x_{id}\)，再通过融合 MLP 映射到文本嵌入空间，在身份相关的 token 位置替换文本嵌入。Face 分支使用可学习的 32-token query \(\mathbf{q}_{face}\)，通过另一个 Q-Former 从 \(\mathbf{f}\) 提取面部结构特征 \(x_{face}\)，用于后续的 full-attention 和交叉注意力
- 设计动机：单一的身份嵌入不足以同时保持发型、脸型等结构信息和身份特征。解耦设计让 ID 特征通过文本通道引导语义，面部结构特征通过注意力通道提供细节参考
条件自适应归一化（Conditioned Adaptive Normalization, CAN）:
- 功能：将身份条件信息高效注入到 DiT 的分布调制中
- 核心思路：CogVideoX 已有针对 text 和 video 两个模态的层级调制模块 \(\varphi_{txt}, \varphi_{vid}\)，分别预测各自的 scale/shift/gate 参数。MagicMirror 新增面部模态的调制模块 \(\varphi_{face}\) 来处理面部特征。关键创新是 CAN 模块 \(\varphi_{cond}\)，它以时间嵌入 \(\mathbf{t}\)、层索引 \(l\)、视频调制因子 \(\mu_{vid}^1\) 和 ID 嵌入 \(x_{id}\) 为条件，预测对 text 和 video 模态的分布偏移 \(\hat{m}_{vid}, \hat{m}_{txt}\)。最终调制因子通过残差相加获得：\(m_{vid} = \hat{m}_{vid} + \varphi_{vid}(\mathbf{t}, l)\)
- 设计动机：直接添加 cross-attention 在 full-attention DiT 中效果有限，因为 DiT 的条件控制主要通过分布调制实现。CAN 让身份信息直接影响 text/video 特征的分布，加速收敛且提升身份保真度。实验表明没有 CAN 时模型连最基本的发型特征都无法学习
两阶段渐进训练策略:
- 功能：解决 ID-视频配对数据稀缺的问题
- 核心思路：第一阶段在多样化的图像数据上预训练（LAION-Face 50K + SFHQ + FFHQ 合成配对），学习鲁棒的身份保持能力，训练 30K 步，batch size 64。第二阶段在高质量视频数据上微调（Pexels + Mixkit + 少量自采集视频），增强时序一致性，训练 5K 步，batch size 8。合成数据通过 PhotoMakerV2 生成同一身份的不同姿态图像，用 ArcFace 相似度 >0.65 过滤
- 设计动机：直接用视频训练数据量不足且身份多样性有限。图像预训练先建立强的身份嵌入能力，视频微调再将这种能力迁移到时序域。仅用图像训练会导致视频推理时出现色偏，两阶段策略解决了调制因子在不同训练阶段的不一致问题

损失函数 / 训练策略¶

损失函数包含去噪损失和身份感知损失：\(\mathcal{L} = \mathcal{L}_{noise} + \lambda (1 - \cos(q_{face}, D(x_0)))\)，其中 \(D(\cdot)\) 是解码去噪后的 latent。50% 的训练样本仅在面部区域计算去噪损失。

实验关键数据¶

主实验¶

与 I2V 和 ID 保持方法的定量对比（使用 VBench 和自定义指标）：

方法	面部相似度↑	动态度↑	Prompt一致性↑	IS↑	面部运动(FM_ref)↑	用户偏好↑
DynamiCrafter	0.455	0.168	8.20	0.896	0.237	5.87
CogVideoX-I2V	0.660	0.213	9.85	0.901	0.413	6.22
ID-Animator	0.140	0.211	7.57	0.923	0.652	5.63
MagicMirror	0.705	0.240	10.59	0.911	0.704	6.97

消融实验¶

配置	效果说明
w/o Face 分支	缺少结构细节引导，身份保真度显著下降
w/o CAN	收敛困难，预训练阶段连发型都学不到
仅图像训练	视频推理出现色偏伪影
仅视频训练	身份保持能力弱
完整两阶段	最优，ID 高保真 + 动态面部运动

计算开销对比：

模型	GPU 显存	参数量	推理时间(49帧 480P)
CogVideoX-5B	24.9 GiB	10.5B	204s
MagicMirror	28.6 GiB	12.8B	209s

关键发现¶

CAN 对收敛至关重要：没有 CAN 时模型在图像预训练阶段就无法拟合基本的外观特征，加入 CAN 后收敛速度和质量都大幅提升
面部运动指标优势明显：MagicMirror 在 FM_ref（相对面部运动）上达到 0.704，远超 CogVideoX-I2V 的 0.413，说明生成的视频真正有动态面部表情
计算开销极小：仅增加 2.3B 参数（大部分集中在特征提取器，只需单次前向传播）和 5s 推理时间
用户研究全面领先：在运动动态、文本对齐、视频质量和身份一致性四个维度均获得最高评分

亮点与洞察¶

CAN 的设计哲学：不是简单叠加一个 cross-attention 分支，而是利用 DiT 已有的分布调制机制，通过预测身份条件下的分布偏移来注入身份信息。这种"顺应架构"的适配方式比"强行嫁接"更优雅高效，对其他 DiT 适配任务有启发
合成数据管线：利用 PhotoMakerV2 生成同一身份的多样化参考图像来构造训练对，搭配严格的 ArcFace 相似度过滤，是一套实用的数据生产策略
Average Similarity 指标：提出用与参考图像集的平均相似度而非单张相似度来评估 ID 保持，避免了"复制粘贴"行为获得虚高分数

局限与展望¶

不支持多人身份定制视频生成，目前仅处理单人场景
主要关注面部身份特征，服装、配饰等细粒度属性的保持能力有限
基于 CogVideoX-5B，受限于基础模型的生成质量上限和视频时长
存在深度伪造（deepfake）风险，需关注社会影响和肖像权保护

评分¶

新颖性: ⭐⭐⭐⭐ 首个基于 Video DiT 的零样本 ID 保持视频生成，CAN 设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 定量指标+用户研究+消融+分布可视化+计算开销分析，非常全面
写作质量: ⭐⭐⭐⭐ 论文结构清晰，Appendix 提供了丰富的补充细节
价值: ⭐⭐⭐⭐⭐ 个性化视频生成的里程碑工作，方法实用性强，代码已开源