Realistic Human Motion Generation with Cross-Diffusion Models¶

会议: ECCV 2024
arXiv: 2312.10993
领域: 图像生成

一句话总结¶

提出 CrossDiff 框架，通过统一编码和交叉解码机制融合 3D 与 2D 运动信息，利用交叉扩散实现更精细的全身运动细节捕获，并支持从野外 2D 数据学习 3D 运动生成。

研究背景与动机¶

文本驱动的人体运动生成在游戏、VR、机器人等领域需求日增
现有方法（MDM、MLD、T2M-GPT）仅依赖 3D 运动信息训练，忽略细微运动细节
关键洞察：仅使用 3D 表示时，模型容易关注主要运动而忽略局部细节（如手指、面部表情）；而 2D 投影可在不同视角下放大这些细微运动
收集高质量 3D 运动数据成本高昂，而 2D 运动数据容易从视频中提取
核心问题：如何利用 2D 运动的互补信息增强 3D 运动生成的全身细节？

方法详解¶

整体框架¶

CrossDiff 由三个核心模块组成：

混合表示（Mixed Representations）：将 3D 运动数据通过正交投影到四个方向（前、左、右、后）获得对应的 2D 运动数据
统一编码（Unified Encoding）：两个独立编码器（$\mathcal{E}_{3D}$、$\mathcal{E}_{2D}$）分别处理 3D/2D 运动噪声，加上一个共享权重编码器 $\mathcal{E}_{share}$ 映射到统一特征空间
交叉解码（Cross-Decoding）：独立的 3D/2D 解码器可从任意维度的统一特征中输出对应维度的运动

关键设计¶

1. 交叉扩散机制

框架产生四种输出路径：3D→3D、2D→3D、3D→2D、2D→2D，实现跨维度的噪声逆转：

\[\hat{x}_{iD \to jD,0} = G_{iD \to jD}(x_{iD,t}, t, c) = \mathcal{D}_{jD}(\mathcal{E}_{share}(\mathcal{E}_{iD}(x_{iD,t}, t, c)))\]

2. 两阶段训练策略

阶段 I：同时学习四个方向的逆扩散过程，建立 2D/3D 运动之间的映射关系 $$\mathcal{L}_{stage I} = \mathcal{L}_{3D \to 3D} + w_{23}\mathcal{L}_{2D \to 3D} + w_{32}\mathcal{L}_{3D \to 2D} + w_{22}\mathcal{L}_{2D \to 2D}$$
阶段 II：仅使用 3D 生成损失微调，聚焦 3D 去噪，同时保留从 2D 学到的丰富运动特征 $$\mathcal{L}_{stage II} = \mathcal{L}_{3D \to 3D}$$

3. 混合采样（Mixture Sampling）

推理时可先在 2D 域去噪到时间步 $\alpha$，再通过 $G_{2D \to 3D}$ 投射到 3D 域继续去噪。该策略利用 2D 域的更丰富运动细节来引导 3D 生成。

4. 从 2D 野外数据学习 3D 运动

利用预训练的 $G_{2D \to 3D}$ 从视频中估计的 2D 姿态生成伪 3D 标签，实现在无 3D GT 数据的情况下微调生成域外运动。

损失函数¶

各路径采用简单的重建目标：

\[\mathcal{L}_{iD \to jD} = \mathbb{E}_{t \sim [1,T]} \|x_{jD,0} - G_{iD \to jD}(x_{iD,t}, t, c)\|_2^2\]

实验关键数据¶

主实验¶

HumanML3D 和 KIT-ML 数据集上与 SOTA 方法的比较：

方法	R-Prec(top3)↑	FID↓	MM Dist↓	DIV→	FID-U↓	FID-L↓
MDM	0.611	0.544	5.566	9.559	0.825	0.840
T2M-GPT	0.775	0.141	3.121	9.722	0.145	0.607
MLD	0.772	0.473	3.196	9.724	0.541	0.553
ReMoDiffuse	0.795	0.103	2.974	9.018	0.125	0.565
CrossDiff	0.730	0.162	3.358	9.577	0.118	0.281

KIT-ML 数据集：

方法	R-Prec(top3)↑	FID↓	MM Dist↓	FID-U↓	FID-L↓
MDM	0.396	0.497	9.191	0.925	0.973
T2M-GPT	0.745	0.514	3.007	0.602	0.715
ReMoDiffuse	0.765	0.155	2.814	0.205	0.644
CrossDiff	0.704	0.474	3.308	0.434	0.625

消融实验¶

CrossDiff 各组件在 HumanML3D 上的影响：

设置	R-Prec↑	FID↓	MM Dist↓	DIV→
MDM baseline	0.611	0.544	5.566	9.559
50% 3D	0.666	0.586	3.894	9.513
100% 3D	0.685	0.224	3.690	9.445
50% 3D + 100% 2D	0.672	0.422	3.708	9.345
100% 3D + 100% 2D	0.730	0.162	3.358	9.577
w/o 共享编码器	0.714	0.187	3.496	9.488
w/ 共享编码器	0.730	0.162	3.358	9.577
1个视角(前)	0.722	0.186	3.467	9.798

关键发现¶

上下半身 FID 指标全面领先：CrossDiff 的 FID-U=0.118（最佳）和 FID-L=0.281（最佳），表明全身运动生成质量更均衡
ReMoDiffuse 和 T2M-GPT 的上半身 FID 较低但下半身 FID 偏高，说明运动生成不均衡
加入 2D 数据显著降低 FID（从 0.224 → 0.162），证实跨维度互补信息的有效性
共享编码器是必要的——去掉后 FID 从 0.162 上升到 0.187
用户研究中 CrossDiff 在运动活力和多样性方面获得最高偏好
从 UCF101 野外 2D 数据可以成功生成域外 3D 运动（如引体向上、骑自行车）

亮点与洞察¶

核心创新在于跨维度互补：2D 投影可从不同视角放大细微运动，补充 3D 表示容易忽略的局部细节
提出上下半身分离的 FID 评估指标（FID-U/FID-L），更细粒度地分析全身运动生成质量
混合采样策略可灵活切换 2D/3D 域，理论上支持从纯 2D 噪声生成 3D 运动
实用价值：2D 运动数据大量可从视频提取，该方法大幅降低了 3D 运动数据收集成本

局限性¶

在传统指标（R-Precision、FID）上不如 ReMoDiffuse 等方法，优势主要体现在细粒度运动质量
KIT-ML 数据集以"行走"为主，不适合展示方法的细节捕获优势
2D 到 3D 映射存在深度模糊性，纯 2D 数据训练的根节点估计不够精确
两阶段训练流程增加了训练复杂度

评分¶

创新性：⭐⭐⭐⭐ — 跨维度扩散机制新颖
实用性：⭐⭐⭐⭐ — 支持野外2D数据训练
表现力：⭐⭐⭐ — 传统指标不占优，细粒度指标领先
综合评分：7.5/10