HUMOTO: A 4D Dataset of Mocap Human Object Interactions¶

会议: ICCV 2025
arXiv: 2504.10414
代码: https://jiaxin-lu.github.io/humoto/
领域: 人体理解 / 人物交互
关键词: 人物交互数据集, 动作捕捉, 手部姿态, 多物体交互, LLM脚本生成

一句话总结¶

提出 HUMOTO，一个高保真 4D 人物交互数据集，包含 735 段序列（7875 秒，30fps），涵盖 63 个精确建模物体和 72 个可动部件，创新性地使用 LLM 驱动的场景脚本生成流程和多传感器捕获系统，在手部姿态精度和交互质量上显著超越现有数据集。

研究背景与动机¶

4D 人物交互（HOI）数据对计算机视觉、机器人、图形学和生成式 AI 至关重要。然而，现有数据集存在明显不足：

单物体局限：大多数数据集（GRAB、BEHAVE、OMOMO 等）仅涉及单物体交互

手部缺失：许多数据集缺乏精细手部运动（如 BEHAVE、OMOMO 仅使用标准手模板）

语义断裂：现有序列往往是孤立的、无目的的动作，缺乏连贯的任务逻辑

交互质量差：手与物体经常出现严重穿透或完全脱离

获取高质量 4D HOI 数据非常昂贵，需要复杂的动捕设备和大量人工清理。HUMOTO 旨在填补多物体、全身+手部、有意义任务序列的数据空白。

方法详解¶

整体框架¶

数据采集流程：场景设计 → LLM 脚本生成 → 动捕+相机录制 → 数据处理 → 多阶段质量保证 → 文本标注

关键设计¶

Scene-Driven LLM Scripting（场景驱动LLM脚本）：借鉴电影制作流程，先将 63 个物体按逻辑分组为"房间"（如厨房、书房），再将物体分组提供给 LLM 生成连贯的交互脚本。LLM 层次化生成：先确定场景主题，再细化为具体动作序列（如"打开抽屉取出物品→在桌上整理→准备餐点"），确保每个动作有明确目的和自然衔接，避免孤立无意义的动作。
多传感器捕获系统：
- 人体动捕：Rokoko 智能动捕衣 + 配套手套，30fps 惯性传感器网络追踪全身骨骼和手指关节
- 物体追踪：双 Kinect RGB-D 相机最大化覆盖、最小化遮挡，使用 FoundationPose 算法获取 6DoF 物体姿态
- 定制环境：木制抬高舞台（减少金属对惯性传感器的磁干扰），双电脑 UDP 时间同步
- 遮挡处理：SAM2 配合人工标注提供物体掩码，动态重置机制应对快速运动导致的追踪丢失
多阶段质量保证：
- 技术精修：专业动画师修正捕获伪影（漂移、追踪误差），确保交互逻辑一致性
- 独立验证：另一组团队验证自然合理的交互，修复关节抖动、足滑等问题
- 两个阶段迭代直到所有质量标准满足
- 文本标注：三层标注——简短标题、短脚本、详细长脚本

损失函数 / 训练策略¶

本文为数据集论文,无训练损失。但提出了一套 HOI 数据集质量评估指标体系： - 人体运动：Foot Sliding（足滑距离）、Jerk（加加速度平滑度）、MSNR（运动信噪比，以 Mixamo 为基线）、Coherence（运动连贯性）、Diversity（运动多样性） - 物体运动：Jerk（操作平滑度） - 交互质量：Penetration（穿透深度）、Contact Entropy（接触状态分布多样性）、State Consistency（状态一致性）

实验关键数据¶

主实验（数据集质量对比）¶

数据集	足滑(cm)↓	Jerk(m/s³)↓	MSNR(dB)→	物体Jerk↓	穿透(cm)↓	接触熵↑
BEHAVE	4.556	4.08	5.51	10.40	0.0606	2.2915
OMOMO	2.130	15.10	12.37	27.40	0.0602	1.9468
IMHD	1.474	1.14	14.20	24.06	0.1172	2.4265
ParaHome	3.008	9.19	1.82	0.08	0.2167	1.0254
HUMOTO	0.958	1.87	9.42	1.13	0.0068	1.4587
Mixamo (参考)	3.184	8.14	10.88	-	-	-

消融实验（数据集统计对比）¶

数据集	时长(h)	人数	物体数	手部	身体	最大场景物体数	采集方式
GRAB	3.8	10	51	✓	✓	1	站立
BEHAVE	4.2	8	20	✗	✓	1	便携
OMOMO	10.1	17	15	✗	✓	1	便携
ParaHome	8.1	38	22	✓	✓	22	房间
HUMOTO	2.2	1	63	✓	✓	15	场景

关键发现¶

足滑最小：HUMOTO 的 0.958cm 远优于所有其他数据集（次优 IMHD 为 1.474cm），归功于严格的动捕流程和专业清理
穿透最低：0.0068cm 的穿透深度比 BEHAVE（0.0606cm）和 OMOMO（0.0602cm）低一个数量级，包含精细手部姿态的情况下依然保持极佳精度
物体操作自然：物体 Jerk 仅 1.13，远低于 OMOMO（27.40）和 IMHD（24.06），表明物体操作平滑且真实
MSNR 接近 Mixamo 基准：9.42dB 接近专业动画数据 Mixamo 的 10.88dB
感知评估：82% 受试者给 HUMOTO 最高质量评分，96% 在整体质量上更偏好 HUMOTO 而非 BEHAVE

亮点与洞察¶

LLM 场景脚本生成是数据采集流程的创新：将电影分镜思路引入动捕规划，确保序列的语义连贯性和任务完整性
多传感器 + 木制舞台 + 电磁场动捕衣的组合是实用的工程方案，有效解决了遮挡和磁干扰问题
穿透深度指标比其他数据集低一个数量级，对手部交互建模的精度提升非常关键
下游应用展示丰富：动作生成（MotionGPT 在 HUMOTO 提示上效果不佳说明挑战性）、机器人抓取（与 DexGraspNet 对比）、姿态估计（4D Humans/TRAM 均失败）

局限与展望¶

单一表演者：仅 1 名演员，可能引入体型和运动风格偏差，限制了跨人泛化
总时长有限：2.2 小时虽质量高但规模不算大，小于 OMOMO（10.1h）和 ParaHome（8.1h）
人工清理成本高：每段序列都需专业动画师多轮清理验证，难以规模化
物体非实际扫描：使用艺术家建模而非 3D 扫描，可能存在与真实物体几何的微妙差异
未提供力/力矩等接触力学信息，对需要力反馈的机器人学习有局限

评分¶

新颖性: ⭐⭐⭐⭐ LLM脚本驱动和多传感器方案新颖，但核心贡献是数据集而非算法
实验充分度: ⭐⭐⭐⭐ 定量指标全面，感知评估扎实，下游应用展示丰富
写作质量: ⭐⭐⭐⭐ 结构清晰，采集流程描述详尽，图表直观
价值: ⭐⭐⭐⭐⭐ 填补多物体精细手部HOI数据空白，对动作生成、机器人和具身AI有重要价值