Identity-Preserving Text-to-Video Generation by Frequency Decomposition¶

会议: CVPR 2025
arXiv: 2411.17440
代码: https://github.com/PKU-YuanGroup/ConsisID
领域: 扩散模型 / 视频生成
关键词: 身份保持视频生成, 频率分解, DiT, 人脸一致性, 免微调

一句话总结¶

ConsisID 提出基于频率分解的 DiT 控制方案，将人脸特征解耦为低频全局信息和高频内在身份信息，分别注入 DiT 的不同位置，实现免微调的身份保持文本到视频生成，在身份保持、文本相关性和视觉质量上全面超越现有方法。

研究背景与动机¶

领域现状：身份保持的文本到视频生成（IPT2V）是视频生成中的重要任务。现有方法主要基于 U-Net 架构，且大多需要针对每个新身份进行逐案微调（如 DreamBooth、LoRA），效率低下。开源社区中仅 ID-Animator 支持免微调 IPT2V，但只能生成类似说话头的视频，身份保持效果差。

现有痛点：新兴的 DiT 架构在视频生成中展现了巨大潜力，但将身份控制信号迁移到 DiT 上面临两个核心问题：(1) DiT 缺少 U-Net 的长跳跃连接，低层特征难以聚合，训练收敛困难；(2) Transformer 对高频信息感知能力弱，而高频信息对保持人脸细节至关重要。

核心矛盾：U-Net 通过编码器-解码器架构天然具备多尺度特征和高频感知能力，而 DiT 缺乏这些结构优势。直接将 U-Net 上的控制方案套用到 DiT 上行不通。

本文目标 (1) 如何在 DiT 架构上实现免微调的 IPT2V？ (2) 如何设计频率感知的控制方案来弥补 DiT 的结构缺陷？

切入角度：作者从视觉/扩散 Transformer 的频率分析研究中获得启发，发现浅层特征对应低频信息有助于训练收敛，而 Transformer 对高频信息感知不足。人脸特征恰好可以分解为低频（轮廓、比例）和高频（身份标记），这与 DiT 的缺陷形成互补。

核心 idea：将人脸身份特征按频率分解为高低频两部分，分别注入 DiT 的浅层输入和注意力块内部，实现频率感知的身份保持视频生成。

方法详解¶

整体框架¶

ConsisID 基于预训练的 CogVideoX-5B（DiT 架构）。给定参考人脸图像，系统通过两个互补的特征提取器分别获取低频和高频人脸信息：全局人脸提取器将参考图和面部关键点拼接到噪声 latent 作为低频信号输入；局部人脸提取器利用 ArcFace 和 CLIP 编码器融合后的高频特征，通过交叉注意力注入每个 Transformer 块。配合层次化训练策略，生成身份一致的视频。

关键设计¶

全局人脸提取器（低频信号注入）:
- 功能：提供低频全局人脸信息（轮廓、比例），促进模型收敛
- 核心思路：从参考图中提取人脸关键点并转化为 RGB 图像，与参考图一起经 VAE 编码后拼接到噪声 latent 上。关键点图像过滤了光照、阴影等无关噪声，让模型聚焦于低频面部结构信息。目标函数变为 \(\mathcal{L}_b = \mathbb{E}[\|\epsilon - \epsilon_\theta(x_0, t, \tau_\theta(y), \psi_\theta(f))\|^2]\)
- 设计动机：DiT 缺少 U-Net 的长跳跃连接，直接训练很难收敛。浅层低频信号的注入模拟了 U-Net 跳跃连接的作用，是模型能够训练的前提条件
局部人脸提取器（高频信号注入）:
- 功能：补充高频人脸身份细节（眼睛纹理、嘴唇细节等内在身份标记）
- 核心思路：使用双塔特征提取——ArcFace 提取与表情/姿态无关的内在身份特征，CLIP 编码器提取语义丰富的可编辑特征，通过 Q-Former 融合二者。融合后的特征通过每个注意力块中的交叉注意力与视觉 token 交互：\(Z_i' = Z_i + \text{Attention}(Q_i^v, K_i^f, V_i^f)\)。同时应用 Dropout 减轻 CLIP 无关特征的影响
- 设计动机：Transformer 对高频信息感知弱，仅靠低频全局特征无法保持精细身份细节。通过在注意力块内部注入高频信号，引导注意力机制关注面部内在特征
一致性训练策略（Coarse-to-Fine + Dynamic Loss）:
- 功能：分阶段训练 + 动态损失设计，提升训练效率和泛化能力
- 核心思路：(a) 粗到细训练：先用全局提取器学低频特征，再引入局部提取器学高频细节；(b) 动态掩码损失：以概率 \(\alpha\) 仅计算人脸区域损失 \(\mathcal{L}_d = M \odot \mathcal{L}_c\)，避免背景噪声干扰；(c) 动态交叉人脸损失：以概率 \(\beta\) 使用训练帧之外的人脸作为参考图，并加入高斯噪声，防止模型学到"复制粘贴"的捷径
- 设计动机：视频生成需要同时维持时空一致性，直接端到端训练太复杂。分阶段策略降低了学习难度，动态损失则分别解决了背景干扰和过拟合问题

损失函数 / 训练策略¶

最终损失函数 \(\mathcal{L}_f\) 综合了动态掩码损失和动态交叉人脸损失。训练设置：分辨率 480×720，49 帧，batch size 80，学习率 \(3 \times 10^{-6}\)，总步数 1.8k，\(\alpha = \beta = 0.5\)。推理时使用 DPM sampler，50 步，CFG=6.0。

实验关键数据¶

主实验¶

方法	FaceSim-Arc ↑	FaceSim-Cur ↑	CLIPScore ↑	FID ↓
ID-Animator	0.32	0.33	24.97	117.46
ConsisID	0.58	0.60	27.93	151.82

ConsisID 在身份保持指标上大幅领先 ID-Animator（FaceSim-Arc +81%），同时在文本相关性上也优于对手。用户研究中 103 份有效问卷显示 ConsisID 在所有维度均被偏好。

消融实验¶

配置	FaceSim-Arc ↑	FaceSim-Cur ↑	CLIPScore ↑	FID ↓
Full model (plan c)	0.73	0.75	36.77	127.42
w/o GFE (plan b)	0.05	0.05	34.86	269.88
w/o LFE (plan a)	0.66	0.68	34.48	104.34
w/o CFT	0.54	0.58	34.47	144.62
w/o DML	0.62	0.67	34.23	187.78
w/o DCL	0.65	0.69	32.21	117.80

关键发现¶

去掉全局人脸提取器（GFE）后模型几乎无法收敛，FaceSim-Arc 从 0.73 骤降至 0.05，证明低频信号注入是训练的必要条件
高频信号注入位置至关重要：注入注意力块内部（plan c）远优于注入块输出（plan e）或块输入（plan f/g，导致梯度爆炸）
傅里叶谱分析直观验证了频率分解的有效性：注入高/低频信号确实增强了对应频段的信息

亮点与洞察¶

频率分解控制的思路非常巧妙：将 DiT 的结构缺陷转化为设计优势——人脸的高低频分解恰好对应 DiT 需要补充的浅层和高频信息，形成了自然的互补关系
免微调的实用价值高：基于预训练 CogVideoX-5B，仅需 1.8k 步训练即可获得免微调 IPT2V 能力，极大降低了使用门槛
频率分析的方法论可迁移：这种从频率域分析模型缺陷再设计针对性补偿的思路，可以推广到其他 DiT 可控生成任务（如姿态控制、风格迁移）

局限与展望¶

FID 指标反而不如 ID-Animator（151.82 vs 117.46），说明生成的视觉质量/多样性还有提升空间
仅在单人场景验证，未处理多人身份保持的情况
基于 CogVideoX-5B 固定架构，对其他 DiT 架构（如 HunyuanVideo）的适配性未验证
训练数据为内部人体数据集，数据规模和多样性可能限制泛化能力

评分¶

新颖性: ⭐⭐⭐⭐ 频率分解控制的思路新颖且有理论支撑，但核心组件（ArcFace+CLIP+Q-Former）借鉴较多
实验充分度: ⭐⭐⭐⭐ 消融实验详尽，包含频率域可视化分析，但仅与 ID-Animator 一个开源方法对比
写作质量: ⭐⭐⭐⭐ 动机推导清晰，从 Finding 到设计的逻辑链完整
价值: ⭐⭐⭐⭐ 首个基于 DiT 的开源免微调 IPT2V 模型，实用价值高