跳转至

MotionCharacter: Fine-Grained Motion Controllable Human Video Generation

会议: AAAI 2026
arXiv: 2411.18281
代码: https://motioncharacter.github.io/
领域: 视频理解
关键词: 人体视频生成, 运动控制, 身份保持, 光流, 扩散模型

一句话总结

提出 MotionCharacter 框架,通过将运动解耦为动作类型和运动强度两个独立可控维度,实现高保真人体视频生成中的细粒度运动控制和身份一致性保持。

研究背景与动机

领域现状

个性化文本到视频(T2V)生成近年取得显著进展,特别是主体驱动的 T2V 模型(如 VideoBooth、DreamVideo、ID-Animator 等)能生成忠实描绘特定个体的高质量视频。

核心痛点

运动控制粒度不足:现有方法只能通过粗粒度文本(如 "open mouth")描述动作,无法精确控制运动强度(如 "slightly" vs. "widely")。原因在于文本以离散方式捕捉动作,而运动强度本质上是连续的。

动作语义与强度耦合:文本描述中动作类型和运动幅度天然纠缠在一起,模型不得不"猜测"用户意图的幅度,导致不可预测的结果。

身份保持困难:当运动变得动态时,保持主体身份一致性成为重大挑战。现有方法在动态性(Dynamic Degree)和身份保真度(Face Similarity)之间存在不可调和的权衡——要么生成近乎静态的视频以保持身份,要么牺牲身份以实现动态运动。

核心切入角度

将运动显式解耦为动作类型(action type)和运动强度(motion intensity)两个独立可控分量,通过文本短语指定动作类型、用基于光流的连续标量控制强度。同时设计专门的身份保持模块来解决动态运动下的身份退化问题。

方法详解

整体框架

给定参考身份图像 \(\mathcal{I}\)、文本提示 \(\mathcal{P}\)、动作短语 \(\mathcal{A}\) 和运动强度 \(\mathcal{M}\),模型生成视频 \(\mathcal{V} = \mathcal{F}(\mathcal{I}, \mathcal{P}, \mathcal{A}, \mathcal{M})\)。框架包含三个核心组件:ID 内容插入模块、运动控制模块和复合损失函数。

关键设计

1. ID 内容插入模块(ID Content Insertion Module)

功能:从参考图像提取身份嵌入并注入扩散模型,确保生成视频中人物身份一致。

核心思路: - 首先从参考图像中裁剪出人脸区域,过滤背景干扰 - 并行通过 CLIP 图像编码器和 ArcFace 人脸识别模型,分别获取广泛上下文嵌入 \(E_{clip}\) 和细粒度身份嵌入 \(E_{arc}\) - 通过交叉注意力融合两种嵌入:\(C_{id} = \text{Proj}(\text{Attn}(E_{arc}W_q', EW_k', EW_v'))\),其中 \(E = E_{clip} + E_{arc}\) - 身份嵌入 \(C_{id}\) 作为图像提示嵌入,与文本提示嵌入一起引导扩散模型:\(z' = \text{Attn}(Q, K^t, V^t) + \lambda \cdot \text{Attn}(Q, K^i, V^i)\)

设计动机:ArcFace 提供精确的面部特征,CLIP 提供上下文信息,两者互补。交叉注意力让 ArcFace 特征选择性关注 CLIP 中最相关的上下文信息。

2. 运动控制模块(Motion Control Module)

功能:实现动作类型和运动强度的独立控制。

核心思路

(a) 运动强度估计:利用 RAFT 光流模型计算相邻帧间的像素级运动。通过阈值化提取前景运动区域,计算前景平均光流值作为运动强度:

\[\mathcal{M} = \frac{1}{N-1} \sum_{i=1}^{N-1} f_{i,fg}\]

其中 \(f_{i,fg}\) 是每帧前景的平均光流值。运动强度 \(\mathcal{M}\) 是一个标量,通过 MLP 映射为运动强度嵌入 \(E_M\)

(b) 运动条件注入:采用两个并行交叉注意力模块分别注入动作嵌入 \(E_A\)(从 CLIP 文本编码器获取)和运动强度嵌入 \(E_M\)

\[Z'' = \text{Attn}(Q', K^a, V^a) + \alpha \cdot \text{Attn}(Q', K^m, V^m)\]

关键区别:与 SVD 使用单一 motion bucket 做全局粗粒度控制不同,本文的双分支策略将语义引导(想要什么动作)和强度控制(多大幅度)分离,通过并行交叉注意力融合,实现可预测的细粒度控制。

3. ID 一致性损失(ID-Consistency Loss)

功能:在语义层面强制身份保持,弥补像素级 MSE 损失对高层概念(如身份)的不敏感。

核心公式

\[\mathcal{L}_{id} = 1 - \frac{1}{N} \sum_{i=1}^{N} \frac{\phi(I) \cdot \phi(X_i^f)}{|\phi(I)||\phi(X_i^f)|}\]

其中 \(\phi\) 是预训练的 ArcFace 人脸识别骨干网络。该损失直接在身份特征空间中惩罚偏差,确保即使在复杂运动中也能保持角色核心特征。

损失函数 / 训练策略

区域感知损失(Region-Aware Loss):将归一化的前景光流作为权重掩码,对高运动区域(如面部)施加更大的去噪损失权重:

\[\mathcal{L}_R = \frac{1}{NH'W'} \sum_i \sum_{x,y} M_{i,\text{norm}} \cdot [\epsilon_i(x,y) - \hat{\epsilon}_i(x,y)]^2\]

总损失\(\mathcal{L}_{total} = \mathcal{L}_R + \lambda_{id} \cdot \mathcal{L}_{id}\)

图片-视频混合训练:将约 17,619 张风格化肖像图片复制为 16 帧静态视频(运动强度为 0),提供"零强度校准",帮助模型学习从静止到动态的平滑过渡谱。

Human-Motion 数据集:收集 106,292 个视频片段,包含 VFHQ、CelebV-Text、CelebV-HQ 等多个来源,使用 LMM 自动生成整体描述和动作短语双轨标注。

实验关键数据

主实验

方法 Dover Score↑ Motion Smooth.↑ Dynamic Degree↑ CLIP-I↑ CLIP-T↑ Face Sim.↑
IPA-PlusFace 0.797 0.985 0.325 0.587 0.218 0.480
IPA-FaceID-PlusV2 0.813 0.987 0.085 0.575 0.217 0.617
ID-Animator 0.857 0.979 0.433 0.607 0.204 0.546
MotionCharacter 0.869 0.998 0.449 0.633 0.227 0.609

核心发现:IPA-FaceID-PlusV2 的 Face Similarity 最高(0.617)但 Dynamic Degree 极低(0.085),说明现有方法被迫在身份和运动间做取舍。MotionCharacter 以仅 1.3% 的 Face Sim 差距换取了 428% 的 Dynamic Degree 提升。

消融实验

\(\mathcal{L}_R\) \(\mathcal{L}_{id}\) Dover↑ Dynamic Degree↑ Face Sim.↑
0.801 0.355 0.484
0.810 0.359 0.588
0.860 0.419 0.500
0.869 0.449 0.609
运动控制模块 Dover↑ Dynamic Degree↑ Face Sim.↑
无 MCM 0.805 0.245 0.601
有 MCM 0.869 0.449 0.609

关键发现

  1. 协同增强效应:两个损失函数组合后效果超过各自单独使用——\(\mathcal{L}_{id}\) 提供稳定的身份基础,使得 \(\mathcal{L}_R\) 能雕刻出更具表现力的运动
  2. MCM 的巨大影响:运动控制模块使 Dynamic Degree 提升 83.3%(0.245→0.449),同时保持身份相似度
  3. 用户研究验证:10 位专家评审员对 100 个视频的 3000 个评分中,MotionCharacter 在身份一致性、运动可控性和视频质量三个维度均获最高偏好

亮点与洞察

  1. 运动解耦思想的优雅实现:将连续的光流标量与离散的文本动作短语正交组合,用户可通过滑块精确调节运动幅度
  2. "零强度校准"训练策略:用静态图像作为运动强度为 0 的训练样本,锚定连续运动强度谱的零点
  3. Human-Motion 数据集的双轨标注:同时提供运动语义和运动强度标注,为细粒度运动生成研究提供数据基础

局限与展望

  1. 目前主要验证了面部运动控制,全身快速运动的控制效果未充分展示
  2. 运动强度范围限制在 0-20,超出范围的极端运动需 cap 处理
  3. 依赖光流估计的准确性,复杂遮挡场景下光流可能不准确
  4. 数据集以单人为主,多人交互场景的运动控制是开放问题

相关工作与启发

  • IP-Adapter / InstantID 系列:为本文的身份嵌入注入方案提供了基础
  • Stable Video Diffusion (SVD):也使用光流但仅做全局粗粒度控制,对比凸显了本文双分支解耦的优势
  • AnimateDiff:作为本文的基础 T2V 生成模型

评分

  • 新颖性: ⭐⭐⭐⭐ — 运动解耦和零强度校准思路新颖
  • 实验充分度: ⭐⭐⭐⭐ — 定量、定性、用户研究和消融实验完整
  • 写作质量: ⭐⭐⭐⭐ — 逻辑清晰,图示直观
  • 价值: ⭐⭐⭐⭐ — 对可控视频生成领域有实际参考价值

相关论文