M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models¶

会议: ECCV 2024
arXiv: 2407.14502
领域: 图像生成

一句话总结¶

提出 M2D2M，基于离散扩散模型生成多段连续人体运动序列，通过动态转移概率和两阶段采样策略（TPS）实现动作间平滑过渡，且无需额外的多运动训练数据。

研究背景与动机¶

现有文本到运动方法主要关注单动作序列生成，但实际应用（叙事、游戏、模拟训练）需要生成包含一系列连续动作的多运动序列。现有多运动方法（如 PriorMDM 的 Handshake 算法、TEACH 的 SLERP 插值）先独立生成各动作再后处理连接，常导致： - 动作边界处过渡突兀 - 个别动作的保真度下降 - 需要额外的过渡长度超参数

本文基于离散扩散模型提出统一的生成方案，用单运动训练的模型直接生成多运动序列，无需额外训练或后处理。

方法详解¶

整体框架¶

M2D2M 由三个模块组成： 1. Motion VQ-VAE：将运动序列编码为离散 token 2. 去噪 Transformer：在离散扩散框架下学习条件去噪 3. 两阶段采样（TPS）：联合采样建立粗略轮廓 → 独立采样精调各段运动

关键设计¶

动态转移概率：改进 VQ-Diffusion 中的均匀转移概率，根据 codebook token 间的距离动态调整：

\[\beta(t, d) = (1 - \gamma_t - \alpha_t) \cdot \text{softmax}_d\left(\eta \cdot \frac{t}{T} \cdot \frac{d}{K}\right)\]

在扩散早期（t 大）优先探索远距离 token 以促进多样性，后期逐渐收敛为均匀分布以精确收敛。这种探索-利用的策略对多运动边界处的模式混合至关重要。

两阶段采样（TPS）： - 联合采样阶段（步骤 T → Ts+1）：将所有动作的 mask token 合并，用去噪 Transformer 联合去噪，通过自注意力机制让不同动作的 token 相互影响，确保过渡平滑 - 独立采样阶段（步骤 Ts → 1）：各动作独立去噪，与对应文本描述对齐，保持个体保真度

关键优势：无需多运动训练数据，用单运动训练的模型即可生成。

新评估指标 Jerk：衡量多运动序列在动作边界处的平滑度：

\[Jerk = \sum_p \ln \frac{1}{v_{p,\text{peak}}^2} \int_{t_1}^{t_2} \left\| \frac{d}{dt} \mathbf{a}_p(t) \right\|_2^2 dt\]

首次将 Jerk 引入多运动生成评估。

损失函数¶

离散扩散标准目标：变分下界 + 去噪交叉熵损失：

\[\mathcal{L} = \mathcal{L}_{\text{vlb}} + \lambda \mathbb{E}_{z_t \sim q(z_t|z_0)} [-\log p_\theta(z_0 | z_t, y)]\]

采用 CLIP 文本编码器、相对位置编码和 classifier-free guidance（10% 无条件丢弃率）。

实验关键数据¶

主实验¶

HumanML3D 多运动生成（N=4 个动作）：

方法	R-Top3 ↑	FID ↓	MMdist ↓	Jerk →
GT (Single)	0.791	0.002	2.707	1.192
GT (Concat)	—	—	—	1.371
PriorMDM	0.586	0.832	5.901	0.476
T2M-GPT	0.719	0.342	3.512	1.321
M2D2M	0.733	0.253	3.165	1.238

M2D2M 在所有个体运动指标上显著领先，且 Jerk 值接近真实单运动（1.238 vs 1.192），远优于简单拼接（1.371）。PriorMDM 的 Jerk 仅 0.476，说明过度平滑导致运动缺乏真实感。

HumanML3D 单运动生成对比（与 13 种方法比较，部分结果）：

方法	R-Top3 ↑	FID ↓	MM-Dist ↓	MModality ↑
MotionGPT	0.778	0.232	3.096	2.008
ReMoDiffuse	0.795	0.103	2.974	1.795
M2D2M	0.788	0.057	3.040	2.473

消融实验¶

KIT-ML 多运动生成（N=4）：

方法	R-Top3 ↑	FID ↓	Jerk →
PriorMDM	0.292	3.311	0.594
T2M-GPT	0.667	0.907	1.388
M2D2M	0.711	0.817	1.351

TPS 与动态转移概率的联合效果（消融实验表明两者协同工作效果最佳，单独使用效果有限）。

关键发现¶

TPS 是单阶段多运动生成算法，不需要已完成的独立运动或过渡长度超参数
动态转移概率在扩散早期促进模式混合对多运动边界过渡至关重要
PriorMDM 的 Handshake 算法过度平滑边界（Jerk 过低），丢失了运动的细节特征
相对位置编码允许模型外推到训练时未见的长序列

亮点与洞察¶

零额外训练成本的多运动生成：用单运动训练的模型直接生成多运动，解决了多运动标注数据稀缺的问题
Jerk 指标的引入：填补了多运动过渡平滑度评估的空白
动态转移概率的探索-利用策略：扩散早期鼓励远距离 token 混合，为多运动边界处不同动作模式的融合提供了理论支持
TPS 的联合→独立两阶段设计简洁优雅

局限性¶

联合采样阶段的步数 Ts 为超参数，需要手动调节
基于 VQ-VAE 的离散表示可能引入量化误差
未与 FineMoGen 等同期工作做充分对比
多运动过渡区域的 Diversity 评估依赖随机组合测试集，可能引入偏差

评分¶

⭐⭐⭐⭐ 离散扩散视角下的多运动生成新方案，动态转移概率和 TPS 设计新颖，Jerk 指标有贡献