Large Motion Model for Unified Multi-Modal Motion Generation¶

会议: ECCV 2024
arXiv: 2404.01284
代码: 项目主页
领域: 人体理解
关键词: 运动生成, 多模态, 扩散模型, 统一模型, large-scale

一句话总结¶

提出 Large Motion Model (LMM)，首个以动作为中心的多模态统一动作生成基础模型，通过构建包含 10 个任务、16 个数据集、320K 序列的 MotionVerse 基准，设计支持身体部位感知的 ArtAttention 机制，以及结合随机帧率/掩码的预训练策略，实现跨任务的高质量动作生成。

研究背景与动机¶

领域现状: 人体动作生成是动画和视频制作的核心技术，涵盖 text-to-motion、music-to-dance、motion prediction 等多个子任务。每个子任务都已有针对性的 specialist model 取得了不错效果。

现有痛点: 这些专家模型各自为政，只在单一任务、单一数据集上训练，面临数据量有限、数据域单一的问题，导致模型能力受限、泛化性差。

核心矛盾: 构建统一动作模型虽然可以利用海量多源数据实现泛化，但面临三大障碍：(1) 不同数据集的动作格式不统一（关键点 vs 旋转表示）；(2) 不同任务的评估指标不同；(3) 跨任务的动作知识难以迁移（帧率、关键点数量、缺失部位各不相同）。

本文目标 如何将多模态、多任务的动作生成统一到一个通用模型中，并在各个任务上达到与专家模型可比甚至更优的性能。

切入角度: 从数据（统一表示）、架构（身体部位感知注意力）、训练策略（无监督预训练+有监督微调）三个层面系统性地解决以上挑战。

核心 idea: 将 16 个数据集的异构动作数据统一为身体部位分段的中间表示，设计 ArtAttention 机制处理缺失部位和多条件输入，通过随机帧率/掩码预训练充分利用大规模运动数据。

方法详解¶

整体框架¶

LMM 基于 Transformer-based Diffusion Model（扩散模型），整体流程分为两个阶段：

无监督预训练阶段: 不使用条件信号，仅利用运动序列本身，通过随机降采样和随机掩码策略增强模型对运动先验的学习能力。
有监督微调阶段: 引入多模态条件信号（文本、音乐、语音、视频），让模型学习条件与运动之间的对应关系。

在架构上，模型包含 Read-In Layer（数据集相关的输入编码器）→ ArtAttention 主干网络 → Read-Out Layer（数据集相关的输出解码器）。

MotionVerse 数据集¶

为解决数据格式不统一问题，作者构建了 MotionVerse 基准：

规模: 10 个任务、16 个数据集、320K 序列、~100M 帧
统一表示: 采用类似 TOMATO 的中间格式，将运动表示分解为 10 个独立部位：全局朝向/轨迹、面部表情、头部、脊柱、左臂、右臂、左腿、右腿、左手、右手
缺失处理: 允许部分身体部位缺失，并在元数据中标注
评测映射: 训练 motion translator 将统一格式映射回各数据集特定格式，实现跨数据集评测
条件对齐: 使用 ImageBind 将文本、语音、音乐、视频等多模态条件编码为统一特征空间

关键设计¶

Read-In/Read-Out Layer（数据集自适应编解码层）: 由于不同数据集的分布差异无法完全忽略，在输入输出端使用数据集相关的编码器/解码器。训练时有 10% 概率将数据集名替换为 "all"，使通用编解码器可用于实际应用。
ArtAttention（关节注意力机制）: 核心创新模块，分为两个分支：
- 空间注意力（Body-part Attention）: 对每一帧，在身体部位维度上使用注意力机制建模部位间关系。由于存在天然缺失部位和预训练中人为掩码的部位，不能使用固定系数，因此使用自注意力动态计算部位间贡献。
- 时间注意力（Temporal Attention）: 使用多头注意力，每个头对应一个身体部位。关键改进包括：
  - 使用 Mixture-of-Expert 从多模态条件特征中生成统一 Key 表示
  - 对运动特征 \(\mathbf{K}_x\) 和条件特征 \(\mathbf{K}_c\) 分别独立归一化（避免长条件序列稀释运动自相关性）
  - 引入 64 个可学习 token 作为无条件生成的占位符
  - 使用真实时间而非帧索引来支持不同帧率
- 最终输出：\(\mathbf{Y} = \mathbf{Y}_s + \mathbf{Y}_t\)
预训练策略（Random Downsampling + Random Masking）:
- 随机降采样: 对序列进行随机下采样，重新计算速度项以匹配降采样率，使模型学习适应不同原始帧率的数据
- 随机掩码: 在原始缺失掩码 \(\mathbf{M}_s\) 基础上，以一定概率额外掩码更多部位得到 \(\mathbf{M}_t\)，被掩码部位用可学习空 token 替换。计算 loss 时仅忽略 \(\mathbf{M}_s\) 标记的部分，迫使模型利用可见部分推断被掩码部分
- 关键作用: 防止模型在扩散过程中仅依赖噪声序列自身恢复，迫使它在微调时更依赖条件信号

损失函数 / 训练策略¶

扩散模型标准损失: 遵循标准的 DDPM 训练范式
预训练: Adam 优化器，学习率 \(2 \times 10^{-4}\)，80K 迭代
微调: 分两阶段，先 20K 步（lr=\(2 \times 10^{-4}\)），再 20K 步（lr=\(2 \times 10^{-5}\)）
Classifier-free guidance: 微调时以 10% 概率随机掩码条件信号
四种模型变体: LMM-Tiny (90M), LMM-Small (160M), LMM-Base (410M), LMM-Large (760M)
总 batch size 512，在最多 32 块 V100 GPU 上训练

实验关键数据¶

主实验¶

Text-to-Motion (HumanML3D):

方法	R-Precision Top1↑	FID↓	MM Dist↓	Diversity↑	MultiModality↑
T2M-GPT	0.491	0.116	3.118	9.761	1.856
FineMoGen	0.504	0.151	2.998	9.263	2.696
MoMask	0.521	0.045	2.958	-	1.241
LMM-Large	0.525	0.040	2.943	9.814	2.683

Music-to-Dance (AIST++):

方法	FID_k↓	FID_g↓	Div_k↑	BAS↑
Bailando	28.16	9.62	7.83	0.2332
TM2D	19.01	20.09	9.45	0.2049
LMM-Large	22.08	21.97	9.85	0.2249

消融实验¶

预训练策略消融 (LMM-Base):

配置	Downsample	Random Mask	Attention	HumanML3D Top1	HumanML3D FID	AMASS 1000ms
1	✗	✗	ArtAttention	0.031	32.814	89.3
3	✗	✓	ArtAttention	0.515	0.151	76.1
4	✓	✓	SAMI	0.400	1.866	80.9
5	✓	✓	ArtAttention	0.511	0.138	73.6

关键发现¶

Random Masking 是必要组件: 没有随机掩码时（实验1/2），模型几乎无法完成 text-to-motion 任务（FID > 30），因为强大的扩散模型可以直接从噪声恢复，不依赖条件信号。
模型规模效应明显: 从 Tiny→Large，R-Precision 从 0.496 提升至 0.525，FID 从 0.415 降至 0.040，展现清晰的 scaling law。
长程预测优势: 在 Motion Prediction 任务中，LMM-Large 在长时间步（880-1000ms）上显著优于专家模型，说明大规模预训练赋予了更强的运动先验。
ArtAttention 优于 SAMI: 在大模型场景下，ArtAttention 的独立归一化策略更适合处理多条件输入。
泛化能力: LMM-Large 在 3DPW（分布外数据集）上的优势更加显著，验证了大规模训练带来的泛化能力。

亮点与洞察¶

"大模型"思路迁移到动作生成领域: 首次系统性地将 LLM 领域的"大数据+统一表示+预训练微调"范式应用于人体动作生成，构建了清晰的 scaling 路径。
部位分段表示设计精巧: 将人体分为 10 个独立部位，既解决了不同数据集关键点不一致的问题，又天然支持缺失部位处理和部位级可控生成。
独立归一化的条件注入: 发现多条件下直接拼接会稀释运动自相关性，提出对运动特征和条件特征分别归一化，这个简单但有效的设计值得借鉴。
Random Masking 的双重作用: 既帮助模型吸收缺失部位数据的知识，又防止模型"作弊"不依赖条件信号。
下游应用扩展: 生成的运动序列可映射到 2D 平面，作为视频生成的引导信号，展示了与 video generation 生态的良好兼容性。

局限与展望¶

中间表示局限: 当前只能处理整个身体部位缺失的情况，无法细粒度处理单个关键点缺失。
Motion Translator 引入噪声: 统一表示到数据集特定表示的转换过程中引入额外误差，降低了动作质量。
长序列生成: 受显存限制，长序列需使用 zero-shot 方法生成，实用性受限。
音乐-舞蹈相关性: music-to-dance 数据占比偏低，导致 FID 指标未超越专家模型。
更灵活的运动表示: 需要探索更灵活的运动表示方法来减少 translator 带来的信息损失。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统构建动作生成领域的"大模型"，数据+架构+训练策略三方面都有创新
实验充分度: ⭐⭐⭐⭐⭐ 10 个任务、9 个 benchmark，消融实验详尽，scaling 分析完整
写作质量: ⭐⭐⭐⭐ 结构清晰，motivtaion-solution 对应关系明确
价值: ⭐⭐⭐⭐ 对动作生成社区有重要的基础设施价值，MotionVerse 数据集本身就是重大贡献