Generating Human Interaction Motions in Scenes with Text Control¶

会议: ECCV 2024
arXiv: 2404.10685
代码: 有
领域: 图像生成 / 人体运动生成
关键词: 场景感知运动生成, 文本控制, 扩散模型, 人物-场景交互, 导航与交互

一句话总结¶

提出 TeSMo，一个文本控制的场景感知运动生成方法，通过在大规模运动数据上预训练文本-运动扩散模型，再用增强的场景感知分支进行微调，分两阶段（导航+交互）生成角色在 3D 场景中避障行走并与物体交互（如坐下）的真实运动序列。

研究背景与动机¶

问题引入¶

在 3D 场景中生成人物与环境交互的真实运动对游戏、电影和具身 AI 至关重要。理想状态是用户通过文本（如"开心地跳向椅子并坐下"）控制动作风格，同时模型能感知场景障碍物并生成合理的交互动作。

现有方法的不足¶

文本-运动扩散模型（MDM、MotionDiffuse 等）：生成高质量运动，但完全忽略环境上下文，角色会穿过障碍物

场景感知 VAE/扩散模型（SceneDiffuser 等）：使用小规模配对人-场景数据训练，运动多样性和质量受限，且缺少文本控制

强化学习方法（DIMOS 等）：可学习交互运动但奖励函数设计困难，运动多样性低且无法文本控制

配对数据极度稀缺：相比大规模运动捕捉数据集（HumanML3D），同时包含 3D 运动、场景几何和文本标注的数据极少

核心洞察¶

将问题分解为导航和交互两个子任务，分别设计扩散模型。关键策略是：先在大规模无场景数据上预训练文本-运动模型获取强运动先验，再通过增强的场景感知控制分支（类似 ControlNet）进行微调，以最小化配对数据需求。

方法详解¶

整体框架¶

TeSMo 将场景中的运动生成分解为两个阶段：

导航阶段：输入起点、终点、场景 2D 地图和文本提示 → 先生成骨盆根轨迹 → 再通过 in-painting 提升为全身运动
交互阶段：输入导航末位姿态、目标骨盆位姿、3D 物体几何和文本提示 → 直接生成全身交互运动

两个阶段均采用预训练+场景分支微调的双分支架构。

关键设计¶

1. 场景感知控制分支¶

功能：在冻结的预训练文本-运动 Transformer 编码器之上，添加独立的场景感知 Transformer 分支，通过零初始化线性层连接到基础模型各层。

核心思路：类似 ControlNet 的增强控制策略——预训练基础模型提供文本跟随和运动真实感，场景分支提供环境约束。微调时只训练场景分支参数（约 20k steps），基础模型冻结。

设计动机：直接用单分支从零训练（如改编的 TRACE）的目标到达精度和全身运动质量均不如双分支微调方案。单阶段训练的 FID 22.372 vs 双分支微调 20.465。

2. 导航模型（根轨迹生成）¶

每帧运动表示为 \(\mathbf{x}^n = [x, y, z, \cos\theta, \sin\theta]\)（骨盆位置+朝向），使用绝对坐标而非相对速度，便于目标位姿约束。

In-painting 目标到达：每步去噪时将首末帧覆写为起点/终点 clean pose
场景输入：从 3D 场景提取可行走区域的鸟瞰 2D 地图 \(\mathcal{M}\)，用 ResNet-18 编码为特征网格，每帧 2D 投影骨盆位置查询对应特征
推理引导：目标到达引导 \(\mathcal{J}_g = (\hat{\mathbf{x}}_0^N - \mathbf{g})^2\) + 碰撞引导 \(\mathcal{J}_c = \text{SDF}(\hat{\mathbf{x}}_0, \mathcal{M})\)
A* 路径融合：支持在去噪步中将模型预测轨迹与用户指定/A* 路径线性混合 \(\tilde{\mathbf{p}}_0 = s \cdot \hat{\mathbf{p}}_0 + (1-s) \cdot \mathbf{p}\)

全身运动通过 PriorMDM in-painting 从根轨迹提升获得。

3. 交互模型（全身运动生成）¶

直接生成全身运动（268 维/帧），包含绝对骨盆位姿、关节位置/速度/旋转、脚部接触等
物体表示：使用 Basis Point Sets (BPS)——在物体中心 1.0m 半径球内采样 1024 个点，计算物体几何特征 \(\mathbf{B}_O\) 和每帧人体-物体关系特征 \(\mathbf{B}^n\)
碰撞引导使用 3D SDF 惩罚穿入物体的身体顶点

损失函数¶

预训练阶段：标准扩散重建损失 \(\|\mathbf{x}_0 - \hat{\mathbf{x}}_0\|^2\)
微调阶段：同上，仅训练场景分支参数
推理引导：目标到达损失（权重 30-1000）+ 碰撞 SDF 损失（权重 10-1000）

数据构建¶

Loco-3D-FRONT：将 HumanML3D 的行走序列嵌入 3D-FRONT 室内场景，左右镜像增强，约 9500 运动 × 10 场景 = 95k 训练对
增强 SAMP：从 80 段坐姿动作中提取子序列（走→坐、站→坐等），随机匹配 3D-FRONT 椅子几何，标注文本描述，左右增强后约 200 子序列/运动

实验关键数据¶

主实验¶

导航评估（Loco-3D-FRONT 测试集，~1000 序列）：

方法	位置误差↓	朝向误差↓	高度误差↓	碰撞率↓	FID↓	R-precision↑	多样性↑	脚滑↓
GMD	0.374	1.231	-	-	13.160	0.114	4.488	0.181
OmniControl	1.226	1.018	1.159	-	22.930	0.458	7.128	0.094
TRACE	0.205	0.152	0.010	0.055	22.669	0.144	6.501	0.058
TeSMo	0.169	0.119	0.008	0.031	20.465	0.376	6.415	0.056

交互评估（SAMP sitting 测试集）：

方法	位置误差↓	高度误差↓	朝向误差↓	穿透值↓	穿透比↓	用户偏好↑
DIMOS	0.2020	0.1283	0.4731	0.0193	0.1076	29.1%
TeSMo	0.1445	0.0120	0.2410	0.0043	0.0611	71.9%

消融实验¶

推理引导效果：

目标引导	碰撞引导	导航位置误差↓	导航碰撞率↓	交互位置误差↓	交互穿透值↓	交互穿透比↓
✗	✗	0.1568	0.0294	0.1445	0.0043	0.0611
✓	✗	0.118	0.0342	0.1453	0.0050	0.0554
✗	✓	0.1550	0.0013	0.1407	0.0040	0.0414
✓	✓	0.1241	0.0012	0.1404	0.0045	0.0494

训练策略消融：单阶段训练（从零训同时训两分支）的目标位置误差 0.197 vs 双阶段 0.169，FID 22.372 vs 20.465。

关键发现¶

双分支预训练+微调架构远优于从零训练：两分支方案在目标到达、碰撞避免和全身运动质量上全面领先
分层导航设计有效：先根轨迹再全身运动比端到端方法更准确到达目标，同时保持文本控制多样性
推理引导互补：目标引导主要改善位置精度（0.156→0.118），碰撞引导主要降低碰撞率（0.029→0.001），组合使用效果最佳
DIMOS 的自回归策略累积误差严重：尽管 DIMOS 使用全身目标位姿输入（比 TeSMo 的仅骨盆位姿更强的条件），目标到达精度仍差
用户感知研究（AMT，30 人）：TeSMo 以 71.9% 的偏好率大幅胜过 DIMOS，交互运动更自然、穿透更少

亮点与洞察¶

预训练+场景感知微调的范式非常实用——最大化利用大规模无场景数据的运动先验，最小化对稀缺的配对人-场景数据的依赖
分解为导航+交互是合理的工程决策，不同子任务用不同场景表示（2D 地图 vs 3D BPS）
数据增强策略巧妙：将现有运动数据嵌入虚拟场景中，为场景分支微调提供丰富训练数据
A* 路径融合机制提供了灵活的用户控制接口

局限性¶

两阶段导航过程可能导致根轨迹与全身姿态之间的不连贯
仅使用 2D 地图限制了处理复杂交互（如跨越小凳子）的能力
当前仅演示了坐下/站起交互，泛化到更多交互类型需要额外数据
数据增强的物体匹配依赖接触点约束，可能限制某些极端姿态

评分¶

新颖性: ⭐⭐⭐⭐ — 预训练+场景分支微调的范式在运动生成领域是新颖的应用
实验充分度: ⭐⭐⭐⭐ — 导航和交互分别有定量评估+用户研究+消融，比较全面
写作质量: ⭐⭐⭐⭐ — 框架清晰，分解合理，数据构建过程详尽
价值: ⭐⭐⭐⭐ — 为场景感知可控运动生成提供了实用的解决方案