FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models¶

会议: ECCV 2024
arXiv: 2406.10740
代码: 无
领域: 多模态VLM
关键词: 人体动作合成, MLLM, 关键帧生成, 物理仿真, 无动捕数据

一句话总结¶

FreeMotion首次在不使用任何动捕数据的情况下，利用GPT-4V作为关键帧设计师和动画师，将自然语言指令分解为关键帧序列，再通过插值和基于物理的运动跟踪填充帧间运动，实现了开放集人体动作合成。

领域现状：人体动作合成是计算机动画的基础任务，现有深度学习方法（MDM、MLD等）依赖大量动捕数据，已在特定动作类别上取得进展。
现有痛点：动捕数据采集成本高、规模有限，最大公开数据集仅数十小时，导致方法局限于预录动作集，缺乏对新环境和未见行为的开放集泛化能力。
核心矛盾：数据驱动方法的质量上限被动捕数据的规模和多样性所限制，而互联网规模的基础模型（如GPT-4V）拥有丰富的世界知识和推理能力，但不能直接输出连续动作序列。
本文要解决什么？ 如何在零动捕数据条件下，利用MLLM的高层语义理解能力实现开放集人体动作合成。
切入角度：MLLM擅长高层语义空间的理解和推理，而非低层运动空间，因此将问题分解为两阶段：先用MLLM在语义空间生成离散关键帧，再用运动填充技术处理连续性。
核心idea一句话：用GPT-4V作为关键帧设计师和动画师生成离散关键帧序列，再通过插值+环境感知物理跟踪获得连续且物理合理的运动。

FreeMotion分为两个阶段：（1）利用两个GPT-4V Agent（关键帧设计师和关键帧动画师）协作生成关键帧序列；（2）通过线性插值和CVAE-based运动跟踪策略在关键帧之间填充运动，生成物理合理的连续动作。

关键帧设计师（Keyframe Designer）：输入高层动作指令、当前姿态描述、人物渲染图和关节坐标，输出下一关键帧的身体部位文字描述和时间间隔。它利用MLLM对动作逻辑的理解来确定关键帧间距和终止时机。
关键帧动画师（Keyframe Animator）：接收设计师的文字描述，通过预定义命令集（包含单关节移动、末端执行器移动、骨盆旋转/移动等）调整人物姿态。支持视觉反馈的多轮迭代调整，每个身体部位最多调整5次，确保姿态与描述匹配。
环境感知运动跟踪：引入高度图作为视觉信号，使CVAE策略和MLP世界模型能感知多样环境地形。编码器将状态转移和环境信号编码为潜变量，解码器基于潜变量生成动作，世界模型预测下一状态。

任务	方法	用户偏好
HumanAct12动作合成	FreeMotion vs MDM vs MLD	46.5% vs 22.67% vs 30.83%
奥运动作合成	FreeMotion vs MotionCLIP vs AvatarCLIP	~82% vs ~8% vs ~10%
风格迁移	FreeMotion vs MotionCLIP vs AvatarCLIP	58.67% vs 19.08% vs 22.25%
人-场景交互(坐)	FreeMotion	95%成功率，0.066接触误差