Generating Human Interaction Motions in Scenes with Text Control¶
会议: ECCV 2024
arXiv: 2404.10685
代码: 有
领域: 图像生成 / 人体运动生成
关键词: 场景感知运动生成, 文本控制, 扩散模型, 人物-场景交互, 导航与交互
一句话总结¶
提出 TeSMo,一个文本控制的场景感知运动生成方法,通过在大规模运动数据上预训练文本-运动扩散模型,再用增强的场景感知分支进行微调,分两阶段(导航+交互)生成角色在 3D 场景中避障行走并与物体交互(如坐下)的真实运动序列。
研究背景与动机¶
问题引入¶
在 3D 场景中生成人物与环境交互的真实运动对游戏、电影和具身 AI 至关重要。理想状态是用户通过文本(如"开心地跳向椅子并坐下")控制动作风格,同时模型能感知场景障碍物并生成合理的交互动作。
现有方法的不足¶
文本-运动扩散模型(MDM、MotionDiffuse 等):生成高质量运动,但完全忽略环境上下文,角色会穿过障碍物
场景感知 VAE/扩散模型(SceneDiffuser 等):使用小规模配对人-场景数据训练,运动多样性和质量受限,且缺少文本控制
强化学习方法(DIMOS 等):可学习交互运动但奖励函数设计困难,运动多样性低且无法文本控制
配对数据极度稀缺:相比大规模运动捕捉数据集(HumanML3D),同时包含 3D 运动、场景几何和文本标注的数据极少
核心洞察¶
将问题分解为导航和交互两个子任务,分别设计扩散模型。关键策略是:先在大规模无场景数据上预训练文本-运动模型获取强运动先验,再通过增强的场景感知控制分支(类似 ControlNet)进行微调,以最小化配对数据需求。
方法详解¶
整体框架¶
TeSMo 将场景中的运动生成分解为两个阶段:
- 导航阶段:输入起点、终点、场景 2D 地图和文本提示 → 先生成骨盆根轨迹 → 再通过 in-painting 提升为全身运动
- 交互阶段:输入导航末位姿态、目标骨盆位姿、3D 物体几何和文本提示 → 直接生成全身交互运动
两个阶段均采用预训练+场景分支微调的双分支架构。
关键设计¶
1. 场景感知控制分支¶
功能:在冻结的预训练文本-运动 Transformer 编码器之上,添加独立的场景感知 Transformer 分支,通过零初始化线性层连接到基础模型各层。
核心思路:类似 ControlNet 的增强控制策略——预训练基础模型提供文本跟随和运动真实感,场景分支提供环境约束。微调时只训练场景分支参数(约 20k steps),基础模型冻结。
设计动机:直接用单分支从零训练(如改编的 TRACE)的目标到达精度和全身运动质量均不如双分支微调方案。单阶段训练的 FID 22.372 vs 双分支微调 20.465。
2. 导航模型(根轨迹生成)¶
每帧运动表示为 \(\mathbf{x}^n = [x, y, z, \cos\theta, \sin\theta]\)(骨盆位置+朝向),使用绝对坐标而非相对速度,便于目标位姿约束。
- In-painting 目标到达:每步去噪时将首末帧覆写为起点/终点 clean pose
- 场景输入:从 3D 场景提取可行走区域的鸟瞰 2D 地图 \(\mathcal{M}\),用 ResNet-18 编码为特征网格,每帧 2D 投影骨盆位置查询对应特征
- 推理引导:目标到达引导 \(\mathcal{J}_g = (\hat{\mathbf{x}}_0^N - \mathbf{g})^2\) + 碰撞引导 \(\mathcal{J}_c = \text{SDF}(\hat{\mathbf{x}}_0, \mathcal{M})\)
- A* 路径融合:支持在去噪步中将模型预测轨迹与用户指定/A* 路径线性混合 \(\tilde{\mathbf{p}}_0 = s \cdot \hat{\mathbf{p}}_0 + (1-s) \cdot \mathbf{p}\)
全身运动通过 PriorMDM in-painting 从根轨迹提升获得。
3. 交互模型(全身运动生成)¶
- 直接生成全身运动(268 维/帧),包含绝对骨盆位姿、关节位置/速度/旋转、脚部接触等
- 物体表示:使用 Basis Point Sets (BPS)——在物体中心 1.0m 半径球内采样 1024 个点,计算物体几何特征 \(\mathbf{B}_O\) 和每帧人体-物体关系特征 \(\mathbf{B}^n\)
- 碰撞引导使用 3D SDF 惩罚穿入物体的身体顶点
损失函数¶
- 预训练阶段:标准扩散重建损失 \(\|\mathbf{x}_0 - \hat{\mathbf{x}}_0\|^2\)
- 微调阶段:同上,仅训练场景分支参数
- 推理引导:目标到达损失(权重 30-1000)+ 碰撞 SDF 损失(权重 10-1000)
数据构建¶
- Loco-3D-FRONT:将 HumanML3D 的行走序列嵌入 3D-FRONT 室内场景,左右镜像增强,约 9500 运动 × 10 场景 = 95k 训练对
- 增强 SAMP:从 80 段坐姿动作中提取子序列(走→坐、站→坐等),随机匹配 3D-FRONT 椅子几何,标注文本描述,左右增强后约 200 子序列/运动
实验关键数据¶
主实验¶
导航评估(Loco-3D-FRONT 测试集,~1000 序列):
| 方法 | 位置误差↓ | 朝向误差↓ | 高度误差↓ | 碰撞率↓ | FID↓ | R-precision↑ | 多样性↑ | 脚滑↓ |
|---|---|---|---|---|---|---|---|---|
| GMD | 0.374 | 1.231 | - | - | 13.160 | 0.114 | 4.488 | 0.181 |
| OmniControl | 1.226 | 1.018 | 1.159 | - | 22.930 | 0.458 | 7.128 | 0.094 |
| TRACE | 0.205 | 0.152 | 0.010 | 0.055 | 22.669 | 0.144 | 6.501 | 0.058 |
| TeSMo | 0.169 | 0.119 | 0.008 | 0.031 | 20.465 | 0.376 | 6.415 | 0.056 |
交互评估(SAMP sitting 测试集):
| 方法 | 位置误差↓ | 高度误差↓ | 朝向误差↓ | 穿透值↓ | 穿透比↓ | 用户偏好↑ |
|---|---|---|---|---|---|---|
| DIMOS | 0.2020 | 0.1283 | 0.4731 | 0.0193 | 0.1076 | 29.1% |
| TeSMo | 0.1445 | 0.0120 | 0.2410 | 0.0043 | 0.0611 | 71.9% |
消融实验¶
推理引导效果:
| 目标引导 | 碰撞引导 | 导航位置误差↓ | 导航碰撞率↓ | 交互位置误差↓ | 交互穿透值↓ | 交互穿透比↓ |
|---|---|---|---|---|---|---|
| ✗ | ✗ | 0.1568 | 0.0294 | 0.1445 | 0.0043 | 0.0611 |
| ✓ | ✗ | 0.118 | 0.0342 | 0.1453 | 0.0050 | 0.0554 |
| ✗ | ✓ | 0.1550 | 0.0013 | 0.1407 | 0.0040 | 0.0414 |
| ✓ | ✓ | 0.1241 | 0.0012 | 0.1404 | 0.0045 | 0.0494 |
训练策略消融:单阶段训练(从零训同时训两分支)的目标位置误差 0.197 vs 双阶段 0.169,FID 22.372 vs 20.465。
关键发现¶
- 双分支预训练+微调架构远优于从零训练:两分支方案在目标到达、碰撞避免和全身运动质量上全面领先
- 分层导航设计有效:先根轨迹再全身运动比端到端方法更准确到达目标,同时保持文本控制多样性
- 推理引导互补:目标引导主要改善位置精度(0.156→0.118),碰撞引导主要降低碰撞率(0.029→0.001),组合使用效果最佳
- DIMOS 的自回归策略累积误差严重:尽管 DIMOS 使用全身目标位姿输入(比 TeSMo 的仅骨盆位姿更强的条件),目标到达精度仍差
- 用户感知研究(AMT,30 人):TeSMo 以 71.9% 的偏好率大幅胜过 DIMOS,交互运动更自然、穿透更少
亮点与洞察¶
- 预训练+场景感知微调的范式非常实用——最大化利用大规模无场景数据的运动先验,最小化对稀缺的配对人-场景数据的依赖
- 分解为导航+交互是合理的工程决策,不同子任务用不同场景表示(2D 地图 vs 3D BPS)
- 数据增强策略巧妙:将现有运动数据嵌入虚拟场景中,为场景分支微调提供丰富训练数据
- A* 路径融合机制提供了灵活的用户控制接口
局限性¶
- 两阶段导航过程可能导致根轨迹与全身姿态之间的不连贯
- 仅使用 2D 地图限制了处理复杂交互(如跨越小凳子)的能力
- 当前仅演示了坐下/站起交互,泛化到更多交互类型需要额外数据
- 数据增强的物体匹配依赖接触点约束,可能限制某些极端姿态
评分¶
- 新颖性: ⭐⭐⭐⭐ — 预训练+场景分支微调的范式在运动生成领域是新颖的应用
- 实验充分度: ⭐⭐⭐⭐ — 导航和交互分别有定量评估+用户研究+消融,比较全面
- 写作质量: ⭐⭐⭐⭐ — 框架清晰,分解合理,数据构建过程详尽
- 价值: ⭐⭐⭐⭐ — 为场景感知可控运动生成提供了实用的解决方案
相关论文¶
- [ECCV 2024] Text2Place: Affordance-aware Text Guided Human Placement
- [ECCV 2024] Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos
- [ECCV 2024] LivePhoto: Real Image Animation with Text-guided Motion Control
- [ECCV 2024] COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation
- [CVPR 2026] ViHOI: Human-Object Interaction Synthesis with Visual Priors