Realistic Human Motion Generation with Cross-Diffusion Models¶
会议: ECCV 2024
arXiv: 2312.10993
领域: 图像生成
一句话总结¶
提出 CrossDiff 框架,通过统一编码和交叉解码机制融合 3D 与 2D 运动信息,利用交叉扩散实现更精细的全身运动细节捕获,并支持从野外 2D 数据学习 3D 运动生成。
研究背景与动机¶
- 文本驱动的人体运动生成在游戏、VR、机器人等领域需求日增
- 现有方法(MDM、MLD、T2M-GPT)仅依赖 3D 运动信息训练,忽略细微运动细节
- 关键洞察:仅使用 3D 表示时,模型容易关注主要运动而忽略局部细节(如手指、面部表情);而 2D 投影可在不同视角下放大这些细微运动
- 收集高质量 3D 运动数据成本高昂,而 2D 运动数据容易从视频中提取
- 核心问题:如何利用 2D 运动的互补信息增强 3D 运动生成的全身细节?
方法详解¶
整体框架¶
CrossDiff 由三个核心模块组成:
- 混合表示(Mixed Representations):将 3D 运动数据通过正交投影到四个方向(前、左、右、后)获得对应的 2D 运动数据
- 统一编码(Unified Encoding):两个独立编码器(\(\mathcal{E}_{3D}\)、\(\mathcal{E}_{2D}\))分别处理 3D/2D 运动噪声,加上一个共享权重编码器 \(\mathcal{E}_{share}\) 映射到统一特征空间
- 交叉解码(Cross-Decoding):独立的 3D/2D 解码器可从任意维度的统一特征中输出对应维度的运动
关键设计¶
1. 交叉扩散机制
框架产生四种输出路径:3D→3D、2D→3D、3D→2D、2D→2D,实现跨维度的噪声逆转:
\[\hat{x}_{iD \to jD,0} = G_{iD \to jD}(x_{iD,t}, t, c) = \mathcal{D}_{jD}(\mathcal{E}_{share}(\mathcal{E}_{iD}(x_{iD,t}, t, c)))\]
2. 两阶段训练策略
- 阶段 I:同时学习四个方向的逆扩散过程,建立 2D/3D 运动之间的映射关系 $\(\mathcal{L}_{stage I} = \mathcal{L}_{3D \to 3D} + w_{23}\mathcal{L}_{2D \to 3D} + w_{32}\mathcal{L}_{3D \to 2D} + w_{22}\mathcal{L}_{2D \to 2D}\)$
- 阶段 II:仅使用 3D 生成损失微调,聚焦 3D 去噪,同时保留从 2D 学到的丰富运动特征 $\(\mathcal{L}_{stage II} = \mathcal{L}_{3D \to 3D}\)$
3. 混合采样(Mixture Sampling)
推理时可先在 2D 域去噪到时间步 \(\alpha\),再通过 \(G_{2D \to 3D}\) 投射到 3D 域继续去噪。该策略利用 2D 域的更丰富运动细节来引导 3D 生成。
4. 从 2D 野外数据学习 3D 运动
利用预训练的 \(G_{2D \to 3D}\) 从视频中估计的 2D 姿态生成伪 3D 标签,实现在无 3D GT 数据的情况下微调生成域外运动。
损失函数¶
各路径采用简单的重建目标:
\[\mathcal{L}_{iD \to jD} = \mathbb{E}_{t \sim [1,T]} \|x_{jD,0} - G_{iD \to jD}(x_{iD,t}, t, c)\|_2^2\]
实验关键数据¶
主实验¶
HumanML3D 和 KIT-ML 数据集上与 SOTA 方法的比较:
| 方法 | R-Prec(top3)↑ | FID↓ | MM Dist↓ | DIV→ | FID-U↓ | FID-L↓ |
|---|---|---|---|---|---|---|
| MDM | 0.611 | 0.544 | 5.566 | 9.559 | 0.825 | 0.840 |
| T2M-GPT | 0.775 | 0.141 | 3.121 | 9.722 | 0.145 | 0.607 |
| MLD | 0.772 | 0.473 | 3.196 | 9.724 | 0.541 | 0.553 |
| ReMoDiffuse | 0.795 | 0.103 | 2.974 | 9.018 | 0.125 | 0.565 |
| CrossDiff | 0.730 | 0.162 | 3.358 | 9.577 | 0.118 | 0.281 |
KIT-ML 数据集:
| 方法 | R-Prec(top3)↑ | FID↓ | MM Dist↓ | FID-U↓ | FID-L↓ |
|---|---|---|---|---|---|
| MDM | 0.396 | 0.497 | 9.191 | 0.925 | 0.973 |
| T2M-GPT | 0.745 | 0.514 | 3.007 | 0.602 | 0.715 |
| ReMoDiffuse | 0.765 | 0.155 | 2.814 | 0.205 | 0.644 |
| CrossDiff | 0.704 | 0.474 | 3.308 | 0.434 | 0.625 |
消融实验¶
CrossDiff 各组件在 HumanML3D 上的影响:
| 设置 | R-Prec↑ | FID↓ | MM Dist↓ | DIV→ |
|---|---|---|---|---|
| MDM baseline | 0.611 | 0.544 | 5.566 | 9.559 |
| 50% 3D | 0.666 | 0.586 | 3.894 | 9.513 |
| 100% 3D | 0.685 | 0.224 | 3.690 | 9.445 |
| 50% 3D + 100% 2D | 0.672 | 0.422 | 3.708 | 9.345 |
| 100% 3D + 100% 2D | 0.730 | 0.162 | 3.358 | 9.577 |
| w/o 共享编码器 | 0.714 | 0.187 | 3.496 | 9.488 |
| w/ 共享编码器 | 0.730 | 0.162 | 3.358 | 9.577 |
| 1个视角(前) | 0.722 | 0.186 | 3.467 | 9.798 |
关键发现¶
- 上下半身 FID 指标全面领先:CrossDiff 的 FID-U=0.118(最佳)和 FID-L=0.281(最佳),表明全身运动生成质量更均衡
- ReMoDiffuse 和 T2M-GPT 的上半身 FID 较低但下半身 FID 偏高,说明运动生成不均衡
- 加入 2D 数据显著降低 FID(从 0.224 → 0.162),证实跨维度互补信息的有效性
- 共享编码器是必要的——去掉后 FID 从 0.162 上升到 0.187
- 用户研究中 CrossDiff 在运动活力和多样性方面获得最高偏好
- 从 UCF101 野外 2D 数据可以成功生成域外 3D 运动(如引体向上、骑自行车)
亮点与洞察¶
- 核心创新在于跨维度互补:2D 投影可从不同视角放大细微运动,补充 3D 表示容易忽略的局部细节
- 提出上下半身分离的 FID 评估指标(FID-U/FID-L),更细粒度地分析全身运动生成质量
- 混合采样策略可灵活切换 2D/3D 域,理论上支持从纯 2D 噪声生成 3D 运动
- 实用价值:2D 运动数据大量可从视频提取,该方法大幅降低了 3D 运动数据收集成本
局限性¶
- 在传统指标(R-Precision、FID)上不如 ReMoDiffuse 等方法,优势主要体现在细粒度运动质量
- KIT-ML 数据集以"行走"为主,不适合展示方法的细节捕获优势
- 2D 到 3D 映射存在深度模糊性,纯 2D 数据训练的根节点估计不够精确
- 两阶段训练流程增加了训练复杂度
评分¶
- 创新性:⭐⭐⭐⭐ — 跨维度扩散机制新颖
- 实用性:⭐⭐⭐⭐ — 支持野外2D数据训练
- 表现力:⭐⭐⭐ — 传统指标不占优,细粒度指标领先
- 综合评分:7.5/10
相关论文¶
- [ECCV 2024] M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models
- [ECCV 2024] Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation
- [ECCV 2024] Learning Semantic Latent Directions for Accurate and Controllable Human Motion Prediction
- [ECCV 2024] Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization
- [ECCV 2024] XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution