Scaling Large Motion Models with Million-Level Human Motions¶
会议: ICML 2025
arXiv: 2410.03311
领域: 人体理解
一句话总结¶
本文提出 MotionLib(首个百万级运动数据集,120 万条序列)、MotionBook(无损特征 + 2D 无查找运动分词器)和 Being-M0(大型运动模型),首次在运动生成领域展示了数据和模型规模的 scaling law。
研究背景与动机¶
文本到运动生成(T2M)是一个新兴领域,在游戏、电影和机器人等方面有广泛应用。然而,当前方法受限于数据规模:
- 数据量差距巨大:最大的运动数据集 Motion-X 仅有 ~8 万序列,而视觉文本数据(如 ImageNet)量级远大于此
- 现有 VQ 分词器的缺陷:
- 信息丢失:将复杂的运动状态(包含关节位置、速度、接地接触等)压缩为单个 1D 嵌入
- 码本容量有限:小码本限制了可生成运动的多样性
- 特征表示问题:常用的 H3D 格式特征省略了原始旋转信息,恢复需要耗时方法
方法详解¶
MotionLib 数据集¶
首个百万级运动数据集,包含 120 万条运动序列和 248 万条文本描述:
| 数据集 | 序列数 | 文本数 | 小时数 | 文本类型 |
|---|---|---|---|---|
| HumanML3D | 29.2K | 89K | 28.6 | body |
| Motion-X | 81.1K | 142K | 144.2 | body |
| MotionLib | 1.21M | 2.48M | 1456.4 | 层次化 |
构建流程: 1. 从公开数据集和 YouTube 收集 2000 万+视频 2. 使用 WHAM 在世界坐标系中提取 SMPL 参数 3. 生成层次化文本注释:部位级描述(如左臂)+ 全身级描述(1-3 句) 4. 使用 RL 策略 \(\pi_{\text{refine}}\) 精炼原始运动以遵循物理定律
MotionBook:高效运动编码¶
无损运动特征(SMPL-D135)¶
每帧编码为 \(m \in \mathbb{R}^{135}\): - 根节点(9D):6D 旋转 \(\mathbf{r}_{rot} \in \mathbb{R}^6\),2D XZ 平面速度,1D 高度 - 身体关节(126D):21 个关键关节的 6D 旋转向量 \(\mathbf{j}^r \in \mathbb{R}^{21 \times 6}\)
相比 H3D 格式(263D),SMPL-D135 更紧凑且保留了完整的旋转信息。
2D 无查找运动量化(2D-LFQ)¶
核心创新: 1. 将运动序列视为单通道图像 \(\mathcal{M} \in \mathbb{R}^{T \times D \times 1}\) 2. 将特征维度分为 \(P\) 个组件,分别编码(如根方向、关节旋转、脚接触等) 3. 编码器输出为 \(\mathbb{E}(\mathcal{M}) \in \mathbb{R}^{\lfloor T/\alpha \rfloor \times P \times d}\)
无查找量化:将码本替换为整数集 \(\mathbb{C} = \times_{i=1}^d C_i\),其中 \(C_i = \{-1, 1\}\):
token 索引计算为 \(Index(z) = \sum_{i=1}^d 2^{i-1}\mathbb{1}\{z_i > 0\}\)。这使码本大小扩展至少两个数量级(从 ~512 到 ~65K+),同时避免码本崩溃。
Being-M0:大型运动模型¶
基于预训练 LLM 的自回归运动生成模型:
两阶段训练: 1. 运动-文本对齐:在整个 MotionLib 上预训练,学习基本的运动-文本关联 2. 运动指令微调:使用 250+ 指令模板和 90 万条指令数据进行微调
训练损失:
实验¶
Scaling Law 实验¶
| 解码器 | 指令数 | 参数量 | MotionLib-eval FID ↓ |
|---|---|---|---|
| GPT-2 | 0.02M | 355M | 30.612 |
| GPT-2 | 1.2M | 355M | 6.936 |
| LLaMA-3 | 0.02M | 8B | 29.257 |
| LLaMA-3 | 0.08M | 8B | 21.295 |
| LLaMA-3 | 0.5M | 8B | 8.973 |
| LLaMA-3 | 1.2M | 8B | 6.029 |
| LLaMA-2 | 1.2M | 13B | 6.221 |
关键发现: - 数据量从 0.02M 增加到 1.2M,FID 从 ~30 下降到 ~6,scaling 效果显著 - 更大模型带来一致的改进(LLaMA-3 8B 优于 GPT-2 355M),但数据规模的影响远大于模型规模
运动分词器对比¶
2D-LFQ 在保持 MPJPE 误差较低的同时,将码本大小从传统 VQ 的 512 扩展到 65536+,码本利用率接近 100%。
泛化能力¶
现有模型在 MotionLib 上的域外概念测试中挣扎,而 Being-M0 在未见过的运动类别上展现了显著更好的泛化能力。
亮点¶
- 首个百万级运动数据集:120 万序列、248 万文本注释,比现有数据集大 15 倍以上
- 首次展示运动生成的 scaling law:数据和模型规模均能有效降低生成误差
- 创新的 2D 无查找量化:将码本大小扩展两个数量级,从根本上解决了码本容量限制
- 无损特征设计:SMPL-D135 比 H3D 更紧凑且保留完整旋转信息
- 层次化文本注释:部位级 + 全身级描述提供了前所未有的文本细节
局限性¶
- 万级视频中提取的运动质量参差不齐,需要额外的 RL 精炼策略
- 部分剧烈运动在 RL 精炼中仍存在滑动问题
- 单人场景为主,多人场景的支持仍有限
- 从视频中提取的 SMPL 参数精度有限(相比 MoCap 数据)
- 大型 LLM 骨干网络的推理成本较高
评分¶
⭐⭐⭐⭐⭐ (5/5)
这是运动生成领域的里程碑式工作。百万级数据集的构建、首次展示的 scaling law 以及创新的 2D-LFQ 分词器都是重要贡献。论文工程量巨大,实验系统性强,为后续研究奠定了坚实基础。
相关论文¶
- [ICML 2025] Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs
- [ICML 2025] FedRAG: A Framework for Fine-Tuning Retrieval-Augmented Generation Systems
- [ICML 2025] Sum-of-Parts: Self-Attributing Neural Networks with End-to-End Learning of Feature Groups
- [ICML 2025] TopInG: Topologically Interpretable Graph Learning via Persistent Rationale Filtration
- [ICML 2025] LLaVA-ReID: Selective Multi-Image Questioner for Interactive Person Re-Identification