EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation¶
会议: ECCV 2024
arXiv: 2312.02256
代码: https://github.com/Frank-ZY-Dou/EMDM (有)
领域: LLM/NLP
关键词: motion generation, diffusion model, GAN, text-to-motion, efficient sampling
一句话总结¶
提出 EMDM,通过条件去噪扩散 GAN 捕获大步长采样时的复杂多模态去噪分布,结合几何损失约束,实现 T≤10 步的实时人体运动生成,推理速度提升 60-240 倍,同时保持高质量。
研究背景与动机¶
- 扩散模型在人体运动生成中取得 SOTA 效果,但推理极慢
- MDM 生成一条文本描述运动需约 12 秒(1000 步去噪)
- 现有加速方案的不足:
- MLD(运动潜在扩散):需学习良好的潜在空间,两阶段训练且潜在空间质量限制下游性能
- DDIM 加速采样:增大步长后去噪分布不再是高斯,质量显著下降
- 核心洞察:当采样步长增大时,去噪分布变为复杂的非高斯多模态分布,高斯假设不再成立
- 需要一种能有效建模大步长下复杂去噪分布的方法
方法详解¶
整体框架¶
EMDM 基于条件去噪扩散 GAN: 1. 条件生成器:预测清洁运动 x̂0,条件于噪声运动 x_t、控制信号 c、时间步 t 和随机潜在变量 z 2. 条件判别器:判断 x 是否是 x_t 的合理去噪结果 3. 几何损失:约束运动的物理合理性 4. 推理时仅用少量步骤(T≤10)即可生成高质量运动
关键设计¶
1. 条件去噪扩散 GAN
-
条件生成器 G_θ(x_t, z, c, t):
- 输入:噪声运动 x_t + 随机潜在变量 z ~ N(0, I) + 控制信号 c + 时间步 t
- 输出:预测的清洁运动 x̂_0
- 通过后验采样 q(x_{t-1}|x_t, x_0) 得到 x̂_{t-1}
- 采用 12 层 Transformer 编码器(32 头,带跳跃连接)
-
条件判别器 D_ϕ(x_{t-1}, x_t, c, t):
- 7 层 MLP 网络
- 区分真实去噪结果与生成去噪结果
- 训练对抗损失使生成器学会捕获大步长下的复杂分布
-
关键优势:由于 t 在训练中变化,生成器自然学会处理任意大的步长下的复杂去噪分布
2. 几何损失函数
- 发现仅用 GAN 对抗损失训练效率低,运动质量差
- 添加四种几何约束:
- L_recon:运动重建损失(x_0 vs x̂_0)
- L_pos:关节位置损失(通过前向运动学 FK 转换)
- L_foot:脚部接触损失(地面接触时位移为零)
- L_vel:关节速度损失(相邻帧差异匹配)
- L_geo = L_recon + λ(L_pos + L_vel + L_foot)
- λ 为二值指示器:action-to-motion 设为 1,text-to-motion 设为 0
3. 无分类器引导(Classifier-free Guidance)
- 10% 样本随机设 c=∅ 学习无条件生成
- 推理时用引导参数 s 平衡多样性和保真度
损失函数 / 训练策略¶
- 生成器总目标:min_θ (L_disc + R · L_geo)(R 为平衡系数)
- 文本编码器:冻结 CLIP-ViT-L-14
- 优化器:AdamW,学习率 2e-5(text-to-motion)/ 3e-5(action-to-motion)
- EMA 衰减稳定训练
- 端到端训练,无需预训练运动嵌入(比 MLD 简单)
实验关键数据¶
主实验(HumanML3D, Text-to-Motion)¶
| 方法 | FID ↓ | R-Top1 ↑ | MM Dist ↓ | 推理时间 (ms/frame) |
|---|---|---|---|---|
| MDM | 0.544 | 0.320 | 5.566 | 75.5 |
| MLD | 0.473 | 0.481 | 3.196 | 3.3 |
| EMDM | 0.032 | 0.519 | 2.905 | 0.3 |
消融实验¶
| 组件 | FID ↓ | HumanAct12 |
|---|---|---|
| DDGAN(无条件控制) | 1.83 | - |
| + 条件控制 | 0.58 | - |
| + 几何损失 | 0.032 | - |
| 采样步数 T | FID ↓ | 推理时间 |
|---|---|---|
| T=2 | 0.058 | 0.05s |
| T=4 | 0.032 | 0.05s |
| T=8 | 0.034 | 0.05s |
| T=10 | 0.036 | 0.06s |
关键发现¶
- EMDM 推理速度比 MDM 快约 240 倍(text-to-motion:0.05s vs 12.3s)
- FID 降低 94%(0.032 vs 0.544),质量大幅提升
- T=4 是性能最优的采样步数
- 条件控制信号对捕获复杂分布至关重要(对 DDGAN 的改进)
- 几何损失不可或缺——没有它 GAN 训练方案质量很差
- 端到端训练简化了流程,避免了 MLD 两阶段训练的缺陷
亮点与洞察¶
- 速度-质量双提升:不是在速度和质量间权衡,而是同时大幅改善
- 问题诊断深刻:准确指出大步长下高斯假设失效是 DDIM 质量下降的根因
- 条件 GAN + 扩散的巧妙结合:GAN 建模多模态分布 + 扩散提供渐进去噪框架
- 几何损失的发现:运动生成需要任务特定的物理约束,不能仅靠对抗训练
- 端到端训练的实用价值:比 MLD 的两阶段方法更简洁且效果更好
局限性 / 可改进方向¶
- GAN 训练不稳定性仍存在,需要 EMA 和精心调参
- 脚部接触损失需要 ground truth 接触标签
- 生成运动长度固定,不支持变长序列的自适应生成
- 判别器的 7 层 MLP 可能在复杂长序列上能力不足
相关工作与启发¶
- MDM: 运动扩散模型基线
- MLD: 运动潜在扩散,两阶段方法
- DDGAN: 图像生成中的去噪扩散 GAN,本文将其扩展到运动域
- MotionDiffuse: 首个文本运动扩散模型
- 启发:扩散模型的加速不应仅靠减少步数,而应配合更强的分布建模能力
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 新颖性 | 8 |
| 技术深度 | 8 |
| 实验充分性 | 9 |
| 实用价值 | 9 |
| 写作质量 | 8 |
| 总体评分 | 8.4 |
相关论文¶
- [ECCV 2024] Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation
- [ECCV 2024] SMooDi: Stylized Motion Diffusion Model
- [ECCV 2024] MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model
- [ECCV 2024] Realistic Human Motion Generation with Cross-Diffusion Models
- [ECCV 2024] A High-Quality Robust Diffusion Framework for Corrupted Dataset