跳转至

EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation

会议: ECCV 2024
arXiv: 2312.02256
代码: https://github.com/Frank-ZY-Dou/EMDM (有)
领域: LLM/NLP
关键词: motion generation, diffusion model, GAN, text-to-motion, efficient sampling

一句话总结

提出 EMDM,通过条件去噪扩散 GAN 捕获大步长采样时的复杂多模态去噪分布,结合几何损失约束,实现 T≤10 步的实时人体运动生成,推理速度提升 60-240 倍,同时保持高质量。

研究背景与动机

  • 扩散模型在人体运动生成中取得 SOTA 效果,但推理极慢
    • MDM 生成一条文本描述运动需约 12 秒(1000 步去噪)
  • 现有加速方案的不足:
    • MLD(运动潜在扩散):需学习良好的潜在空间,两阶段训练且潜在空间质量限制下游性能
    • DDIM 加速采样:增大步长后去噪分布不再是高斯,质量显著下降
  • 核心洞察:当采样步长增大时,去噪分布变为复杂的非高斯多模态分布,高斯假设不再成立
  • 需要一种能有效建模大步长下复杂去噪分布的方法

方法详解

整体框架

EMDM 基于条件去噪扩散 GAN: 1. 条件生成器:预测清洁运动 x̂0,条件于噪声运动 x_t、控制信号 c、时间步 t 和随机潜在变量 z 2. 条件判别器:判断 x 是否是 x_t 的合理去噪结果 3. 几何损失:约束运动的物理合理性 4. 推理时仅用少量步骤(T≤10)即可生成高质量运动

关键设计

1. 条件去噪扩散 GAN

  • 条件生成器 G_θ(x_t, z, c, t):

    • 输入:噪声运动 x_t + 随机潜在变量 z ~ N(0, I) + 控制信号 c + 时间步 t
    • 输出:预测的清洁运动 x̂_0
    • 通过后验采样 q(x_{t-1}|x_t, x_0) 得到 x̂_{t-1}
    • 采用 12 层 Transformer 编码器(32 头,带跳跃连接)
  • 条件判别器 D_ϕ(x_{t-1}, x_t, c, t):

    • 7 层 MLP 网络
    • 区分真实去噪结果与生成去噪结果
    • 训练对抗损失使生成器学会捕获大步长下的复杂分布
  • 关键优势:由于 t 在训练中变化,生成器自然学会处理任意大的步长下的复杂去噪分布

2. 几何损失函数

  • 发现仅用 GAN 对抗损失训练效率低,运动质量差
  • 添加四种几何约束:
    • L_recon:运动重建损失(x_0 vs x̂_0)
    • L_pos:关节位置损失(通过前向运动学 FK 转换)
    • L_foot:脚部接触损失(地面接触时位移为零)
    • L_vel:关节速度损失(相邻帧差异匹配)
  • L_geo = L_recon + λ(L_pos + L_vel + L_foot)
  • λ 为二值指示器:action-to-motion 设为 1,text-to-motion 设为 0

3. 无分类器引导(Classifier-free Guidance)

  • 10% 样本随机设 c=∅ 学习无条件生成
  • 推理时用引导参数 s 平衡多样性和保真度

损失函数 / 训练策略

  • 生成器总目标:min_θ (L_disc + R · L_geo)(R 为平衡系数)
  • 文本编码器:冻结 CLIP-ViT-L-14
  • 优化器:AdamW,学习率 2e-5(text-to-motion)/ 3e-5(action-to-motion)
  • EMA 衰减稳定训练
  • 端到端训练,无需预训练运动嵌入(比 MLD 简单)

实验关键数据

主实验(HumanML3D, Text-to-Motion)

方法 FID ↓ R-Top1 ↑ MM Dist ↓ 推理时间 (ms/frame)
MDM 0.544 0.320 5.566 75.5
MLD 0.473 0.481 3.196 3.3
EMDM 0.032 0.519 2.905 0.3

消融实验

组件 FID ↓ HumanAct12
DDGAN(无条件控制) 1.83 -
+ 条件控制 0.58 -
+ 几何损失 0.032 -
采样步数 T FID ↓ 推理时间
T=2 0.058 0.05s
T=4 0.032 0.05s
T=8 0.034 0.05s
T=10 0.036 0.06s

关键发现

  • EMDM 推理速度比 MDM 快约 240 倍(text-to-motion:0.05s vs 12.3s)
  • FID 降低 94%(0.032 vs 0.544),质量大幅提升
  • T=4 是性能最优的采样步数
  • 条件控制信号对捕获复杂分布至关重要(对 DDGAN 的改进)
  • 几何损失不可或缺——没有它 GAN 训练方案质量很差
  • 端到端训练简化了流程,避免了 MLD 两阶段训练的缺陷

亮点与洞察

  1. 速度-质量双提升:不是在速度和质量间权衡,而是同时大幅改善
  2. 问题诊断深刻:准确指出大步长下高斯假设失效是 DDIM 质量下降的根因
  3. 条件 GAN + 扩散的巧妙结合:GAN 建模多模态分布 + 扩散提供渐进去噪框架
  4. 几何损失的发现:运动生成需要任务特定的物理约束,不能仅靠对抗训练
  5. 端到端训练的实用价值:比 MLD 的两阶段方法更简洁且效果更好

局限性 / 可改进方向

  • GAN 训练不稳定性仍存在,需要 EMA 和精心调参
  • 脚部接触损失需要 ground truth 接触标签
  • 生成运动长度固定,不支持变长序列的自适应生成
  • 判别器的 7 层 MLP 可能在复杂长序列上能力不足

相关工作与启发

  • MDM: 运动扩散模型基线
  • MLD: 运动潜在扩散,两阶段方法
  • DDGAN: 图像生成中的去噪扩散 GAN,本文将其扩展到运动域
  • MotionDiffuse: 首个文本运动扩散模型
  • 启发:扩散模型的加速不应仅靠减少步数,而应配合更强的分布建模能力

评分

维度 分数 (1-10)
新颖性 8
技术深度 8
实验充分性 9
实用价值 9
写作质量 8
总体评分 8.4

相关论文