Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild¶

会议: ECCV 2024
arXiv: 2406.09905
代码: Project Page
领域: 人体运动数据集 / 自我中心视觉
关键词: egocentric motion, multimodal dataset, motion-language, synchronization, SMPL

一句话总结¶

构建了全球最大的野外人体运动数据集Nymeria：300小时日常活动、264人、50个场景、多设备多模态自我中心数据（Project Aria眼镜+手环+动捕服），配备亚毫秒级同步和310.5K句层次化运动语言描述。

研究背景与动机¶

领域现状：人体运动数据集是推动运动理解、合成和追踪算法的关键资源，但现有数据集在规模、模态丰富度和野外场景覆盖方面存在明显不足。

现有痛点：

规模与多样性：标记器/相机方案受视线遮挡限制，仅能在受控空间内采集短时运动；IMU方案有全局定位漂移
多设备对齐：不同采集设备之间的时间和空间同步精度不足，现有方法依赖视觉/音频线索，精度有限且干扰自然行为
语言标注：现有运动-语言数据集（如HumanML3D仅45K句）规模小、描述简短、缺乏场景上下文

核心矛盾：获取大规模、高质量、多模态、野外运动数据的三大挑战——野外动捕精度、多设备同步、丰富语言标注——难以同时解决。

方法详解¶

整体框架¶

每位参与者穿戴XSens MVN Link动捕服（17个IMU）+ Project Aria眼镜（RGB/灰度/ET/IMU等多传感器）+ 两个miniAria手环 + 同步设备 → 亚毫秒级硬件同步 → MPS空间定位 → XSens骨架重定向到SMPL参数化模型 + 全局漂移修正 → 层次化语言标注。

关键设计¶

亚毫秒级硬件同步方案
- 设计专用同步设备，向所有设备提供统一时间信号
- 可选接收来自无线服务器的时间参考（~100m范围），支持多人同时采集
- XSens与Aria的对齐精度在1个运动帧内（4.2ms）
- 设计动机：避免基于视觉/音频的后处理同步对自然行为的干扰
全身参数化运动表示与漂移修正
- 开发新算法将XSens骨架运动重定向为SMPL全身参数化模型
- 利用Project Aria MPS的SLAM输出进行全局漂移优化修正
- 提供260M个body pose帧，平均每段录制15分钟
- 设计动机：IMU动捕的累积漂移是野外数据集的核心精度瓶颈
层次化运动-语言标注体系
- 三层标注：细粒度运动叙述 → 简化原子动作 → 高层活动摘要
- 310.5K句、8.64M词、6545词汇量——规模远超HumanML3D（45K句/5371词汇）
- 标注包含场景上下文（in-context），而非抽象的动作标签

数据采集策略¶

20种场景（室内：烹饪、工作、娱乐；室外：徒步、骑行、运动等）
每人4-8段录制，每段15-20分钟
额外第三视角"观察者"穿戴Aria记录参与者
隐私保护：EgoBlur去识别化处理面部和车牌

实验关键数据¶

数据集规模对比¶

数据集	时长(h)	姿态帧(M)	均长(min)	参与者	语言句(K)	词汇量
AMASS	42	0.9	0.22	346	-	-
HumanML3D	28.6	2.9	0.12	-	45.0	5371
EgoExo4D	88.8	9.6	2.6	740	432	4405
MotionX	144	15.6	0.11	-	81.1	-
Nymeria	300	260	15	264	310.5	6545

Benchmark 实验¶

自我中心身体追踪

方法	输入条件	全局 MPJPE(cm)↓
AvatarPoser	头部6DOF	18.7
AGRoL	头部6DOF	15.3
AGRoL	+ 手环IMU	12.1
AGRoL	+ 手环6DOF	10.8

关键发现¶

300小时是此前最大野外数据集（EgoExo4D 88.8h）的3.4倍，姿态帧数是27倍
运动-语言数据规模是HumanML3D的6.9倍，首次提供场景内上下文描述
手环IMU/6DOF的加入能进一步降低追踪误差（MPJPE从15.3降至10.8）
15分钟的平均录制时长远超现有数据集（通常<1分钟），捕捉了自然长时活动

亮点与洞察¶

工程贡献突出：亚毫秒级硬件同步 + XSens到SMPL重定向 + 全局漂移修正的完整pipeline是数据集技术壁垒
miniAria手环是首创，为未来AR/VR设备的运动追踪研究提供了新的数据通道
层次化运动-语言标注（叙述→原子动作→活动摘要）比现有单层标注更有利于多粒度运动理解
首次为自我中心运动数据提供了第三人称同步视角

局限性 / 可改进方向¶

XSens动捕服精度低于光学标记系统，手部和面部精度有限
264人在体型/年龄/运动能力方面的多样性可能不足
语言标注质量依赖标注者经验，一致性可能存在偏差
仅提供SMPL模型，未覆盖SMPL-X（手部+面部建模）
场景3D重建精度受限于SLAM输出质量

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模多设备同步的野外自我中心运动数据集
实验充分度: ⭐⭐⭐ 提供了追踪/合成/动作识别benchmark，但baseline实验偏简略
写作质量: ⭐⭐⭐⭐ 数据集构建流程描述详尽，统计数据丰富
价值: ⭐⭐⭐⭐⭐ 数据集规模和模态丰富度具有标志性意义