MotionCharacter: Fine-Grained Motion Controllable Human Video Generation¶

会议: AAAI 2026
arXiv: 2411.18281
代码: https://motioncharacter.github.io/
领域: 视频理解
关键词: 人体视频生成, 运动控制, 身份保持, 光流, 扩散模型

一句话总结¶

提出 MotionCharacter 框架，通过将运动解耦为动作类型和运动强度两个独立可控维度，实现高保真人体视频生成中的细粒度运动控制和身份一致性保持。

研究背景与动机¶

领域现状¶

个性化文本到视频（T2V）生成近年取得显著进展，特别是主体驱动的 T2V 模型（如 VideoBooth、DreamVideo、ID-Animator 等）能生成忠实描绘特定个体的高质量视频。

核心痛点¶

运动控制粒度不足：现有方法只能通过粗粒度文本（如 "open mouth"）描述动作，无法精确控制运动强度（如 "slightly" vs. "widely"）。原因在于文本以离散方式捕捉动作，而运动强度本质上是连续的。

动作语义与强度耦合：文本描述中动作类型和运动幅度天然纠缠在一起，模型不得不"猜测"用户意图的幅度，导致不可预测的结果。

身份保持困难：当运动变得动态时，保持主体身份一致性成为重大挑战。现有方法在动态性（Dynamic Degree）和身份保真度（Face Similarity）之间存在不可调和的权衡——要么生成近乎静态的视频以保持身份，要么牺牲身份以实现动态运动。

核心切入角度¶

将运动显式解耦为动作类型（action type）和运动强度（motion intensity）两个独立可控分量，通过文本短语指定动作类型、用基于光流的连续标量控制强度。同时设计专门的身份保持模块来解决动态运动下的身份退化问题。

方法详解¶

整体框架¶

给定参考身份图像 \(\mathcal{I}\)、文本提示 \(\mathcal{P}\)、动作短语 \(\mathcal{A}\) 和运动强度 \(\mathcal{M}\)，模型生成视频 \(\mathcal{V} = \mathcal{F}(\mathcal{I}, \mathcal{P}, \mathcal{A}, \mathcal{M})\)。框架包含三个核心组件：ID 内容插入模块、运动控制模块和复合损失函数。

关键设计¶

1. ID 内容插入模块（ID Content Insertion Module）¶

功能：从参考图像提取身份嵌入并注入扩散模型，确保生成视频中人物身份一致。

核心思路： - 首先从参考图像中裁剪出人脸区域，过滤背景干扰 - 并行通过 CLIP 图像编码器和 ArcFace 人脸识别模型，分别获取广泛上下文嵌入 \(E_{clip}\) 和细粒度身份嵌入 \(E_{arc}\) - 通过交叉注意力融合两种嵌入：\(C_{id} = \text{Proj}(\text{Attn}(E_{arc}W_q', EW_k', EW_v'))\)，其中 \(E = E_{clip} + E_{arc}\) - 身份嵌入 \(C_{id}\) 作为图像提示嵌入，与文本提示嵌入一起引导扩散模型：\(z' = \text{Attn}(Q, K^t, V^t) + \lambda \cdot \text{Attn}(Q, K^i, V^i)\)

设计动机：ArcFace 提供精确的面部特征，CLIP 提供上下文信息，两者互补。交叉注意力让 ArcFace 特征选择性关注 CLIP 中最相关的上下文信息。

2. 运动控制模块（Motion Control Module）¶

功能：实现动作类型和运动强度的独立控制。

核心思路：

(a) 运动强度估计：利用 RAFT 光流模型计算相邻帧间的像素级运动。通过阈值化提取前景运动区域，计算前景平均光流值作为运动强度：

\[\mathcal{M} = \frac{1}{N-1} \sum_{i=1}^{N-1} f_{i,fg}\]

其中 \(f_{i,fg}\) 是每帧前景的平均光流值。运动强度 \(\mathcal{M}\) 是一个标量，通过 MLP 映射为运动强度嵌入 \(E_M\)。

(b) 运动条件注入：采用两个并行交叉注意力模块分别注入动作嵌入 \(E_A\)（从 CLIP 文本编码器获取）和运动强度嵌入 \(E_M\)：

\[Z'' = \text{Attn}(Q', K^a, V^a) + \alpha \cdot \text{Attn}(Q', K^m, V^m)\]

关键区别：与 SVD 使用单一 motion bucket 做全局粗粒度控制不同，本文的双分支策略将语义引导（想要什么动作）和强度控制（多大幅度）分离，通过并行交叉注意力融合，实现可预测的细粒度控制。

3. ID 一致性损失（ID-Consistency Loss）¶

功能：在语义层面强制身份保持，弥补像素级 MSE 损失对高层概念（如身份）的不敏感。

核心公式：

\[\mathcal{L}_{id} = 1 - \frac{1}{N} \sum_{i=1}^{N} \frac{\phi(I) \cdot \phi(X_i^f)}{|\phi(I)||\phi(X_i^f)|}\]

其中 \(\phi\) 是预训练的 ArcFace 人脸识别骨干网络。该损失直接在身份特征空间中惩罚偏差，确保即使在复杂运动中也能保持角色核心特征。

损失函数 / 训练策略¶

区域感知损失（Region-Aware Loss）：将归一化的前景光流作为权重掩码，对高运动区域（如面部）施加更大的去噪损失权重：

\[\mathcal{L}_R = \frac{1}{NH'W'} \sum_i \sum_{x,y} M_{i,\text{norm}} \cdot [\epsilon_i(x,y) - \hat{\epsilon}_i(x,y)]^2\]

总损失：\(\mathcal{L}_{total} = \mathcal{L}_R + \lambda_{id} \cdot \mathcal{L}_{id}\)

图片-视频混合训练：将约 17,619 张风格化肖像图片复制为 16 帧静态视频（运动强度为 0），提供"零强度校准"，帮助模型学习从静止到动态的平滑过渡谱。

Human-Motion 数据集：收集 106,292 个视频片段，包含 VFHQ、CelebV-Text、CelebV-HQ 等多个来源，使用 LMM 自动生成整体描述和动作短语双轨标注。

实验关键数据¶

主实验¶

方法	Dover Score↑	Motion Smooth.↑	Dynamic Degree↑	CLIP-I↑	CLIP-T↑	Face Sim.↑
IPA-PlusFace	0.797	0.985	0.325	0.587	0.218	0.480
IPA-FaceID-PlusV2	0.813	0.987	0.085	0.575	0.217	0.617
ID-Animator	0.857	0.979	0.433	0.607	0.204	0.546
MotionCharacter	0.869	0.998	0.449	0.633	0.227	0.609

核心发现：IPA-FaceID-PlusV2 的 Face Similarity 最高(0.617)但 Dynamic Degree 极低(0.085)，说明现有方法被迫在身份和运动间做取舍。MotionCharacter 以仅 1.3% 的 Face Sim 差距换取了 428% 的 Dynamic Degree 提升。

消融实验¶

\(\mathcal{L}_R\)	\(\mathcal{L}_{id}\)	Dover↑	Dynamic Degree↑	Face Sim.↑
✗	✗	0.801	0.355	0.484
✗	✓	0.810	0.359	0.588
✓	✗	0.860	0.419	0.500
✓	✓	0.869	0.449	0.609

运动控制模块	Dover↑	Dynamic Degree↑	Face Sim.↑
无 MCM	0.805	0.245	0.601
有 MCM	0.869	0.449	0.609

关键发现¶

协同增强效应：两个损失函数组合后效果超过各自单独使用——\(\mathcal{L}_{id}\) 提供稳定的身份基础，使得 \(\mathcal{L}_R\) 能雕刻出更具表现力的运动
MCM 的巨大影响：运动控制模块使 Dynamic Degree 提升 83.3%（0.245→0.449），同时保持身份相似度
用户研究验证：10 位专家评审员对 100 个视频的 3000 个评分中，MotionCharacter 在身份一致性、运动可控性和视频质量三个维度均获最高偏好

亮点与洞察¶

运动解耦思想的优雅实现：将连续的光流标量与离散的文本动作短语正交组合，用户可通过滑块精确调节运动幅度
"零强度校准"训练策略：用静态图像作为运动强度为 0 的训练样本，锚定连续运动强度谱的零点
Human-Motion 数据集的双轨标注：同时提供运动语义和运动强度标注，为细粒度运动生成研究提供数据基础

局限与展望¶

目前主要验证了面部运动控制，全身快速运动的控制效果未充分展示
运动强度范围限制在 0-20，超出范围的极端运动需 cap 处理
依赖光流估计的准确性，复杂遮挡场景下光流可能不准确
数据集以单人为主，多人交互场景的运动控制是开放问题

评分¶

新颖性: ⭐⭐⭐⭐ — 运动解耦和零强度校准思路新颖
实验充分度: ⭐⭐⭐⭐ — 定量、定性、用户研究和消融实验完整
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，图示直观
价值: ⭐⭐⭐⭐ — 对可控视频生成领域有实际参考价值