MotionCharacter: Fine-Grained Motion Controllable Human Video Generation¶
会议: AAAI 2026
arXiv: 2411.18281
代码: https://motioncharacter.github.io/
领域: 视频理解
关键词: 人体视频生成, 运动控制, 身份保持, 光流, 扩散模型
一句话总结¶
提出 MotionCharacter 框架,通过将运动解耦为动作类型和运动强度两个独立可控维度,实现高保真人体视频生成中的细粒度运动控制和身份一致性保持。
研究背景与动机¶
领域现状¶
个性化文本到视频(T2V)生成近年取得显著进展,特别是主体驱动的 T2V 模型(如 VideoBooth、DreamVideo、ID-Animator 等)能生成忠实描绘特定个体的高质量视频。
核心痛点¶
运动控制粒度不足:现有方法只能通过粗粒度文本(如 "open mouth")描述动作,无法精确控制运动强度(如 "slightly" vs. "widely")。原因在于文本以离散方式捕捉动作,而运动强度本质上是连续的。
动作语义与强度耦合:文本描述中动作类型和运动幅度天然纠缠在一起,模型不得不"猜测"用户意图的幅度,导致不可预测的结果。
身份保持困难:当运动变得动态时,保持主体身份一致性成为重大挑战。现有方法在动态性(Dynamic Degree)和身份保真度(Face Similarity)之间存在不可调和的权衡——要么生成近乎静态的视频以保持身份,要么牺牲身份以实现动态运动。
核心切入角度¶
将运动显式解耦为动作类型(action type)和运动强度(motion intensity)两个独立可控分量,通过文本短语指定动作类型、用基于光流的连续标量控制强度。同时设计专门的身份保持模块来解决动态运动下的身份退化问题。
方法详解¶
整体框架¶
给定参考身份图像 \(\mathcal{I}\)、文本提示 \(\mathcal{P}\)、动作短语 \(\mathcal{A}\) 和运动强度 \(\mathcal{M}\),模型生成视频 \(\mathcal{V} = \mathcal{F}(\mathcal{I}, \mathcal{P}, \mathcal{A}, \mathcal{M})\)。框架包含三个核心组件:ID 内容插入模块、运动控制模块和复合损失函数。
关键设计¶
1. ID 内容插入模块(ID Content Insertion Module)¶
功能:从参考图像提取身份嵌入并注入扩散模型,确保生成视频中人物身份一致。
核心思路: - 首先从参考图像中裁剪出人脸区域,过滤背景干扰 - 并行通过 CLIP 图像编码器和 ArcFace 人脸识别模型,分别获取广泛上下文嵌入 \(E_{clip}\) 和细粒度身份嵌入 \(E_{arc}\) - 通过交叉注意力融合两种嵌入:\(C_{id} = \text{Proj}(\text{Attn}(E_{arc}W_q', EW_k', EW_v'))\),其中 \(E = E_{clip} + E_{arc}\) - 身份嵌入 \(C_{id}\) 作为图像提示嵌入,与文本提示嵌入一起引导扩散模型:\(z' = \text{Attn}(Q, K^t, V^t) + \lambda \cdot \text{Attn}(Q, K^i, V^i)\)
设计动机:ArcFace 提供精确的面部特征,CLIP 提供上下文信息,两者互补。交叉注意力让 ArcFace 特征选择性关注 CLIP 中最相关的上下文信息。
2. 运动控制模块(Motion Control Module)¶
功能:实现动作类型和运动强度的独立控制。
核心思路:
(a) 运动强度估计:利用 RAFT 光流模型计算相邻帧间的像素级运动。通过阈值化提取前景运动区域,计算前景平均光流值作为运动强度:
其中 \(f_{i,fg}\) 是每帧前景的平均光流值。运动强度 \(\mathcal{M}\) 是一个标量,通过 MLP 映射为运动强度嵌入 \(E_M\)。
(b) 运动条件注入:采用两个并行交叉注意力模块分别注入动作嵌入 \(E_A\)(从 CLIP 文本编码器获取)和运动强度嵌入 \(E_M\):
关键区别:与 SVD 使用单一 motion bucket 做全局粗粒度控制不同,本文的双分支策略将语义引导(想要什么动作)和强度控制(多大幅度)分离,通过并行交叉注意力融合,实现可预测的细粒度控制。
3. ID 一致性损失(ID-Consistency Loss)¶
功能:在语义层面强制身份保持,弥补像素级 MSE 损失对高层概念(如身份)的不敏感。
核心公式:
其中 \(\phi\) 是预训练的 ArcFace 人脸识别骨干网络。该损失直接在身份特征空间中惩罚偏差,确保即使在复杂运动中也能保持角色核心特征。
损失函数 / 训练策略¶
区域感知损失(Region-Aware Loss):将归一化的前景光流作为权重掩码,对高运动区域(如面部)施加更大的去噪损失权重:
总损失:\(\mathcal{L}_{total} = \mathcal{L}_R + \lambda_{id} \cdot \mathcal{L}_{id}\)
图片-视频混合训练:将约 17,619 张风格化肖像图片复制为 16 帧静态视频(运动强度为 0),提供"零强度校准",帮助模型学习从静止到动态的平滑过渡谱。
Human-Motion 数据集:收集 106,292 个视频片段,包含 VFHQ、CelebV-Text、CelebV-HQ 等多个来源,使用 LMM 自动生成整体描述和动作短语双轨标注。
实验关键数据¶
主实验¶
| 方法 | Dover Score↑ | Motion Smooth.↑ | Dynamic Degree↑ | CLIP-I↑ | CLIP-T↑ | Face Sim.↑ |
|---|---|---|---|---|---|---|
| IPA-PlusFace | 0.797 | 0.985 | 0.325 | 0.587 | 0.218 | 0.480 |
| IPA-FaceID-PlusV2 | 0.813 | 0.987 | 0.085 | 0.575 | 0.217 | 0.617 |
| ID-Animator | 0.857 | 0.979 | 0.433 | 0.607 | 0.204 | 0.546 |
| MotionCharacter | 0.869 | 0.998 | 0.449 | 0.633 | 0.227 | 0.609 |
核心发现:IPA-FaceID-PlusV2 的 Face Similarity 最高(0.617)但 Dynamic Degree 极低(0.085),说明现有方法被迫在身份和运动间做取舍。MotionCharacter 以仅 1.3% 的 Face Sim 差距换取了 428% 的 Dynamic Degree 提升。
消融实验¶
| \(\mathcal{L}_R\) | \(\mathcal{L}_{id}\) | Dover↑ | Dynamic Degree↑ | Face Sim.↑ |
|---|---|---|---|---|
| ✗ | ✗ | 0.801 | 0.355 | 0.484 |
| ✗ | ✓ | 0.810 | 0.359 | 0.588 |
| ✓ | ✗ | 0.860 | 0.419 | 0.500 |
| ✓ | ✓ | 0.869 | 0.449 | 0.609 |
| 运动控制模块 | Dover↑ | Dynamic Degree↑ | Face Sim.↑ |
|---|---|---|---|
| 无 MCM | 0.805 | 0.245 | 0.601 |
| 有 MCM | 0.869 | 0.449 | 0.609 |
关键发现¶
- 协同增强效应:两个损失函数组合后效果超过各自单独使用——\(\mathcal{L}_{id}\) 提供稳定的身份基础,使得 \(\mathcal{L}_R\) 能雕刻出更具表现力的运动
- MCM 的巨大影响:运动控制模块使 Dynamic Degree 提升 83.3%(0.245→0.449),同时保持身份相似度
- 用户研究验证:10 位专家评审员对 100 个视频的 3000 个评分中,MotionCharacter 在身份一致性、运动可控性和视频质量三个维度均获最高偏好
亮点与洞察¶
- 运动解耦思想的优雅实现:将连续的光流标量与离散的文本动作短语正交组合,用户可通过滑块精确调节运动幅度
- "零强度校准"训练策略:用静态图像作为运动强度为 0 的训练样本,锚定连续运动强度谱的零点
- Human-Motion 数据集的双轨标注:同时提供运动语义和运动强度标注,为细粒度运动生成研究提供数据基础
局限与展望¶
- 目前主要验证了面部运动控制,全身快速运动的控制效果未充分展示
- 运动强度范围限制在 0-20,超出范围的极端运动需 cap 处理
- 依赖光流估计的准确性,复杂遮挡场景下光流可能不准确
- 数据集以单人为主,多人交互场景的运动控制是开放问题
相关工作与启发¶
- IP-Adapter / InstantID 系列:为本文的身份嵌入注入方案提供了基础
- Stable Video Diffusion (SVD):也使用光流但仅做全局粗粒度控制,对比凸显了本文双分支解耦的优势
- AnimateDiff:作为本文的基础 T2V 生成模型
评分¶
- 新颖性: ⭐⭐⭐⭐ — 运动解耦和零强度校准思路新颖
- 实验充分度: ⭐⭐⭐⭐ — 定量、定性、用户研究和消融实验完整
- 写作质量: ⭐⭐⭐⭐ — 逻辑清晰,图示直观
- 价值: ⭐⭐⭐⭐ — 对可控视频生成领域有实际参考价值
相关论文¶
- [ICCV 2025] MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent
- [AAAI 2026] DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation
- [CVPR 2026] PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation
- [CVPR 2026] LAMP: Language-Assisted Motion Planning for Controllable Video Generation
- [AAAI 2026] OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding