FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models¶
会议: ECCV 2024
arXiv: 2406.10740
代码: 无
领域: 多模态VLM
关键词: 人体动作合成, MLLM, 关键帧生成, 物理仿真, 无动捕数据
一句话总结¶
FreeMotion首次在不使用任何动捕数据的情况下,利用GPT-4V作为关键帧设计师和动画师,将自然语言指令分解为关键帧序列,再通过插值和基于物理的运动跟踪填充帧间运动,实现了开放集人体动作合成。
研究背景与动机¶
-
领域现状:人体动作合成是计算机动画的基础任务,现有深度学习方法(MDM、MLD等)依赖大量动捕数据,已在特定动作类别上取得进展。
-
现有痛点:动捕数据采集成本高、规模有限,最大公开数据集仅数十小时,导致方法局限于预录动作集,缺乏对新环境和未见行为的开放集泛化能力。
-
核心矛盾:数据驱动方法的质量上限被动捕数据的规模和多样性所限制,而互联网规模的基础模型(如GPT-4V)拥有丰富的世界知识和推理能力,但不能直接输出连续动作序列。
-
本文要解决什么? 如何在零动捕数据条件下,利用MLLM的高层语义理解能力实现开放集人体动作合成。
-
切入角度:MLLM擅长高层语义空间的理解和推理,而非低层运动空间,因此将问题分解为两阶段:先用MLLM在语义空间生成离散关键帧,再用运动填充技术处理连续性。
-
核心idea一句话:用GPT-4V作为关键帧设计师和动画师生成离散关键帧序列,再通过插值+环境感知物理跟踪获得连续且物理合理的运动。
方法详解¶
整体框架¶
FreeMotion分为两个阶段:(1)利用两个GPT-4V Agent(关键帧设计师和关键帧动画师)协作生成关键帧序列;(2)通过线性插值和CVAE-based运动跟踪策略在关键帧之间填充运动,生成物理合理的连续动作。
关键设计¶
-
关键帧设计师(Keyframe Designer):输入高层动作指令、当前姿态描述、人物渲染图和关节坐标,输出下一关键帧的身体部位文字描述和时间间隔。它利用MLLM对动作逻辑的理解来确定关键帧间距和终止时机。
-
关键帧动画师(Keyframe Animator):接收设计师的文字描述,通过预定义命令集(包含单关节移动、末端执行器移动、骨盆旋转/移动等)调整人物姿态。支持视觉反馈的多轮迭代调整,每个身体部位最多调整5次,确保姿态与描述匹配。
-
环境感知运动跟踪:引入高度图作为视觉信号,使CVAE策略和MLP世界模型能感知多样环境地形。编码器将状态转移和环境信号编码为潜变量,解码器基于潜变量生成动作,世界模型预测下一状态。
损失函数 / 训练策略¶
- 运动跟踪策略采用与ControlVAE相同的训练过程和损失项
- CVAE的编码器和解码器均建模为高斯分布
- 世界模型同样建模为环境感知的高斯分布
- 对于每个下游任务,将所有插值运动拼接训练一个策略和世界模型
实验关键数据¶
主实验¶
| 任务 | 方法 | 用户偏好 |
|---|---|---|
| HumanAct12动作合成 | FreeMotion vs MDM vs MLD | 46.5% vs 22.67% vs 30.83% |
| 奥运动作合成 | FreeMotion vs MotionCLIP vs AvatarCLIP | ~82% vs ~8% vs ~10% |
| 风格迁移 | FreeMotion vs MotionCLIP vs AvatarCLIP | 58.67% vs 19.08% vs 22.25% |
| 人-场景交互(坐) | FreeMotion | 95%成功率,0.066接触误差 |
消融实验¶
| 设计 | 用户偏好 |
|---|---|
| 无身体部位描述 | 26% |
| 完整方法 (FreeMotion) | 74% |
| 无视觉反馈 | 32% |
| 完整方法 (FreeMotion) | 68% |
关键发现¶
- FreeMotion在零动捕数据条件下,在多数HumanAct12动作类别中超越了数据驱动方法,关键因素是物理合理性
- 在奥运动作和风格迁移中大幅优于CLIP-based零样本方法,因为MLLM能想象特定风格下人的行为
- 可以生成同一类别的多样化运动
亮点与洞察¶
- 首次证明了MLLM在零动捕数据下进行开放集人体动作合成的可行性
- "设计师-动画师"双Agent协作框架巧妙地将MLLM限制在其擅长的高层语义空间
- 视觉反馈机制使动画师能多次调整姿态,弥补了MLLM在精确空间操作上的不足
- 环境感知的运动跟踪使方法能适应多种地形
局限性 / 可改进方向¶
- 无法处理复杂动作(如舞蹈)和长文本指令
- 接触丰富的交互场景(如躺下)成功率下降
- 依赖GPT-4V推理速度,生成效率受限
- 未来可考虑用专家人体运动知识微调MLLM,或使用更强的姿态调整技术
相关工作与启发¶
- 与MotionCLIP、AvatarCLIP等CLIP-based方法相比,MLLM的世界知识和推理能力使其在开放集场景中优势明显
- 与数据驱动方法MDM、MLD相比,物理合理性是FreeMotion的核心竞争力
- 启发:MLLM可作为动捕数据的替代来源,特别适合成本高昂的场景
评分¶
- ⭐ 创新性:⭐⭐⭐⭐⭐(首次在无动捕数据下使用MLLM进行开放集运动合成)
- ⭐ 实用性:⭐⭐⭐⭐(为动捕数据收集提供了替代方案)
- ⭐ 实验充分度:⭐⭐⭐⭐(覆盖多种下游任务,用户研究充分)
- ⭐ 写作清晰度:⭐⭐⭐⭐⭐(双Agent设计清晰,补充材料详尽)
相关论文¶
- [ECCV 2024] GENIXER: Empowering Multimodal Large Language Model as a Powerful Data Generator
- [ECCV 2024] Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild
- [ECCV 2024] UniCode: Learning a Unified Codebook for Multimodal Large Language Models
- [ECCV 2024] Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
- [ECCV 2024] BLINK: Multimodal Large Language Models Can See but Not Perceive