Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input¶

会议: CVPR 2025
arXiv: 2504.08449
代码: https://jianwang-mpi.github.io/ego4o (有项目页)
领域: 视频理解
关键词: 第一人称运动捕捉, 多模态融合, IMU传感器, 运动描述生成, VQ-VAE

一句话总结¶

提出Ego4o统一框架，从穿戴设备的多模态输入（1-3个IMU + 第一人称图像 + 运动描述）同时实现人体运动捕捉和运动描述生成，且两个任务可互相增强。

研究背景与动机¶

随着VR/AR头显、智能眼镜、手机、智能手表等可穿戴设备的普及，利用这些设备数据进行人体运动捕捉和理解具有广泛应用前景。然而现有方法面临几个关键挑战：

单模态局限：现有方法大多只利用单一模态——第一人称相机方法（EgoBody等）受限于自遮挡严重，IMU方法（IMUPoser等）在静止姿态估计上能力不足，文本描述缺乏精细运动细节
模态互补性未被利用：不同模态具有天然的互补性——图像和文本提供语义上下文（如看到桌子说明在坐着），IMU提供精确的肢体运动数据（如手表IMU可区分乒乓球的扣杀和挡球动作）
输入灵活性需求：用户可能随时开关摄像头/麦克风，佩戴不同数量的传感器，系统需要适应输入模态的动态变化

方法详解¶

整体框架¶

Ego4o包含三个核心部分：(1) Part-aware VQ-VAE学习分部位的离散运动表示；(2) 多模态编码器将IMU信号、第一人称图像、运动描述投射到运动表示空间，VQ-VAE解码器重建人体运动；(3) 多模态LLM接收运动编码和第一人称图像生成运动描述，描述反过来增强运动捕捉精度，形成闭环。

关键设计¶

部位感知VQ-VAE（Part-aware VQ-VAE）:
- 功能：学习按身体部位分解的离散运动表示
- 核心思路：将22个关节分为6组（头、左臂、右臂、左腿、右腿、躯干），每组训练独立的编码器 \(\mathcal{E}_i\) 和码本 \(C_i \in \mathbb{R}^{N_{code} \times d}\)。输入动作序列转为HumanML3D表示 \(J \in \mathbb{R}^{T \times 263}\)，编码为 \(Q_i \in \mathbb{R}^{T' \times d}\)（\(T'=T/4\)），量化后拼接送入共享解码器 \(\mathcal{D}\)
- 设计动机：区别于将全身作为整体编码的传统方法，部位分解允许将不同位置的IMU信号直接映射到对应的部位码本，同时推理无传感器覆盖部位的运动——类似NLP中的文本填充任务
多模态编码器与随机掩码训练:
- 功能：融合多模态输入，输出运动码本中的编码ID
- 核心思路：用CLIP编码第一人称图像得到 \(F_I\) 和文本得到 \(F_T\)，IMU加速度 \(A \in \mathbb{R}^{T \times 5 \times 3}\) 和旋转（转为6D表示 \(R_{6d} \in \mathbb{R}^{T \times 5 \times 6}\)）拼接为序列 \(F_{imu}\)。三种特征通过嵌入层后送入Transformer编码器，预测各IMU对应的运动码ID的logits \(L_{t,i}\)，用Gumbel Softmax采样码字索引。训练损失包括分类损失和重建损失：\(\mathcal{L} = \mathbb{E}_{\hat{L}}(-\log P(\hat{L}|A,R,I,T_m)) + \lambda\|\hat{J}-J\|_2\)
- 设计动机：随机掩码是本方法支持灵活输入的关键——训练时随机掩蔽图像和文本，随机选择1-3个IMU作为有效输入，使模型学会在任意输入组合下工作
多模态LLM运动理解与反馈增强:
- 功能：生成运动描述，描述反馈增强运动捕捉
- 核心思路：扩展LLaVA-7B，新增运动模态——运动码通过线性嵌入层 \(\mathbf{E}_M\) 映射到LLM词嵌入空间。训练分两阶段：(1) 运动预训练仅训练运动嵌入层实现特征对齐；(2) 多模态微调用LoRA更新LLM参数，同时更新图像和运动嵌入层。关键洞察：生成的运动描述虽非完美，但可作为有价值的归纳偏置反馈给运动捕捉模块，显著提升无人工描述时的性能
- 设计动机：利用LLM的上下文推理能力和图像理解能力来生成高质量运动描述；闭环设计使运动捕捉与理解互相增强

损失函数 / 训练策略¶

运动捕捉：分类损失 + \(\lambda\) 加权的重建L2损失。测试时优化（可选）：在VQ-VAE潜在空间中优化运动特征 \(Q\)，使预测运动的加速度和朝向匹配IMU观测：

\[Q^* = \arg\min_Q \lambda_a L_a(J, A) + \lambda_r L_r(J, R)\]

运动理解：标准的自回归负对数似然损失。训练输入随机选择 \(X_{ins} = \text{RandomSelect}\{[I, X_q], [A,R,X_q], [A,R,I,X_q]\}\)。

实验关键数据¶

主实验（运动捕捉精度）¶

方法	数据集	MPJPE(mm)↓	PA-MPJPE(mm)↓	Jitter(km/s³)↓
IMUPoser (1-3 IMU)	DIP-IMU	97	—	0.19
Ego4o-IMU (1-3 IMU)	DIP-IMU	84.06	63.95	0.076
IMUPoser (1-3 IMU)	Nymeria	105.7	72.94	0.054
Ego4o-IMU (1-3 IMU)	Nymeria	95.86	69.03	0.049
Ego4o (全模态)	Nymeria	84.82	62.33	0.048

消融实验（Nymeria数据集运动捕捉）¶

配置	MPJPE(mm)↓	PA-MPJPE(mm)↓	说明
Ego4o-IMU (仅IMU)	95.86	69.03	基线
仅GT文本+IMU	86.22	63.14	文本带来明显提升
仅图像+IMU	90.81	66.04	图像亦有贡献
生成文本+IMU	88.65	64.79	生成描述也有效
图像+生成文本+IMU	87.00	63.67	接近完整模型
Ego4o (完整)	84.82	62.33	最优

关键发现¶

仅使用IMU输入，Ego4o-IMU已超越IMUPoser（MPJPE: 95.86 vs 105.7），验证了部位感知VQ-VAE表示的优势
多模态融合（图像+文本+IMU）比纯IMU进一步降低MPJPE约11mm，验证了模态互补性
AI生成的运动描述可替代人工描述有效提升性能（88.65 vs 95.86），这是一个重要发现——系统可以自己生成描述来增强自己
运动描述生成上，Ego4o在BERTScore（30.13 vs 14.09）和RougeL（38.95 vs 32.33）上大幅超越MotionGPT
移除图像或运动token都会导致描述生成质量下降，验证了两种模态对理解任务的互补贡献

亮点与洞察¶

闭环设计是最大亮点：运动捕捉→生成描述→描述反哺运动捕捉，这种自增强机制在实际部署中非常有价值（用户无需手动提供描述）
部位感知VQ-VAE很好地解决了灵活IMU配置的问题，将"有哪些传感器"转化为"哪些码本有直接输入、哪些需要推理"
随机掩码训练策略简单但极其有效，使单一模型适配所有可能的输入组合
将运动码本作为LLM的新"语言"是一个优雅的跨模态桥接方案

局限与展望¶

需要完整运动序列作为输入，引入了延迟，不适用于实时在线应用
测试时优化虽然提升了精度，但引入了额外的推理时间成本
Nymeria数据集规模有限（约170k序列），更大规模数据可能进一步提升泛化
第一人称图像中人体严重自遮挡，图像模态的贡献受限于视角

评分¶

新颖性: ⭐⭐⭐⭐⭐ 多模态运动捕捉+理解的闭环框架，自增强设计是原创性贡献
实验充分度: ⭐⭐⭐⭐ 在DIP-IMU和Nymeria上验证但缺少更多基线比较
写作质量: ⭐⭐⭐⭐ 框架描述清晰，动机阐述充分
价值: ⭐⭐⭐⭐⭐ 面向消费级穿戴设备的实际应用场景，闭环增强机制具有很强的实用价值