Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input¶
会议: CVPR 2025
arXiv: 2504.08449
代码: https://jianwang-mpi.github.io/ego4o (有项目页)
领域: 视频理解
关键词: 第一人称运动捕捉, 多模态融合, IMU传感器, 运动描述生成, VQ-VAE
一句话总结¶
提出Ego4o统一框架,从穿戴设备的多模态输入(1-3个IMU + 第一人称图像 + 运动描述)同时实现人体运动捕捉和运动描述生成,且两个任务可互相增强。
研究背景与动机¶
随着VR/AR头显、智能眼镜、手机、智能手表等可穿戴设备的普及,利用这些设备数据进行人体运动捕捉和理解具有广泛应用前景。然而现有方法面临几个关键挑战:
- 单模态局限:现有方法大多只利用单一模态——第一人称相机方法(EgoBody等)受限于自遮挡严重,IMU方法(IMUPoser等)在静止姿态估计上能力不足,文本描述缺乏精细运动细节
- 模态互补性未被利用:不同模态具有天然的互补性——图像和文本提供语义上下文(如看到桌子说明在坐着),IMU提供精确的肢体运动数据(如手表IMU可区分乒乓球的扣杀和挡球动作)
- 输入灵活性需求:用户可能随时开关摄像头/麦克风,佩戴不同数量的传感器,系统需要适应输入模态的动态变化
方法详解¶
整体框架¶
Ego4o包含三个核心部分:(1) Part-aware VQ-VAE学习分部位的离散运动表示;(2) 多模态编码器将IMU信号、第一人称图像、运动描述投射到运动表示空间,VQ-VAE解码器重建人体运动;(3) 多模态LLM接收运动编码和第一人称图像生成运动描述,描述反过来增强运动捕捉精度,形成闭环。
关键设计¶
-
部位感知VQ-VAE(Part-aware VQ-VAE):
- 功能:学习按身体部位分解的离散运动表示
- 核心思路:将22个关节分为6组(头、左臂、右臂、左腿、右腿、躯干),每组训练独立的编码器 \(\mathcal{E}_i\) 和码本 \(C_i \in \mathbb{R}^{N_{code} \times d}\)。输入动作序列转为HumanML3D表示 \(J \in \mathbb{R}^{T \times 263}\),编码为 \(Q_i \in \mathbb{R}^{T' \times d}\)(\(T'=T/4\)),量化后拼接送入共享解码器 \(\mathcal{D}\)
- 设计动机:区别于将全身作为整体编码的传统方法,部位分解允许将不同位置的IMU信号直接映射到对应的部位码本,同时推理无传感器覆盖部位的运动——类似NLP中的文本填充任务
-
多模态编码器与随机掩码训练:
- 功能:融合多模态输入,输出运动码本中的编码ID
- 核心思路:用CLIP编码第一人称图像得到 \(F_I\) 和文本得到 \(F_T\),IMU加速度 \(A \in \mathbb{R}^{T \times 5 \times 3}\) 和旋转(转为6D表示 \(R_{6d} \in \mathbb{R}^{T \times 5 \times 6}\))拼接为序列 \(F_{imu}\)。三种特征通过嵌入层后送入Transformer编码器,预测各IMU对应的运动码ID的logits \(L_{t,i}\),用Gumbel Softmax采样码字索引。训练损失包括分类损失和重建损失:\(\mathcal{L} = \mathbb{E}_{\hat{L}}(-\log P(\hat{L}|A,R,I,T_m)) + \lambda\|\hat{J}-J\|_2\)
- 设计动机:随机掩码是本方法支持灵活输入的关键——训练时随机掩蔽图像和文本,随机选择1-3个IMU作为有效输入,使模型学会在任意输入组合下工作
-
多模态LLM运动理解与反馈增强:
- 功能:生成运动描述,描述反馈增强运动捕捉
- 核心思路:扩展LLaVA-7B,新增运动模态——运动码通过线性嵌入层 \(\mathbf{E}_M\) 映射到LLM词嵌入空间。训练分两阶段:(1) 运动预训练仅训练运动嵌入层实现特征对齐;(2) 多模态微调用LoRA更新LLM参数,同时更新图像和运动嵌入层。关键洞察:生成的运动描述虽非完美,但可作为有价值的归纳偏置反馈给运动捕捉模块,显著提升无人工描述时的性能
- 设计动机:利用LLM的上下文推理能力和图像理解能力来生成高质量运动描述;闭环设计使运动捕捉与理解互相增强
损失函数 / 训练策略¶
运动捕捉:分类损失 + \(\lambda\) 加权的重建L2损失。测试时优化(可选):在VQ-VAE潜在空间中优化运动特征 \(Q\),使预测运动的加速度和朝向匹配IMU观测:
\[Q^* = \arg\min_Q \lambda_a L_a(J, A) + \lambda_r L_r(J, R)\]
运动理解:标准的自回归负对数似然损失。训练输入随机选择 \(X_{ins} = \text{RandomSelect}\{[I, X_q], [A,R,X_q], [A,R,I,X_q]\}\)。
实验关键数据¶
主实验(运动捕捉精度)¶
| 方法 | 数据集 | MPJPE(mm)↓ | PA-MPJPE(mm)↓ | Jitter(km/s³)↓ |
|---|---|---|---|---|
| IMUPoser (1-3 IMU) | DIP-IMU | 97 | — | 0.19 |
| Ego4o-IMU (1-3 IMU) | DIP-IMU | 84.06 | 63.95 | 0.076 |
| IMUPoser (1-3 IMU) | Nymeria | 105.7 | 72.94 | 0.054 |
| Ego4o-IMU (1-3 IMU) | Nymeria | 95.86 | 69.03 | 0.049 |
| Ego4o (全模态) | Nymeria | 84.82 | 62.33 | 0.048 |
消融实验(Nymeria数据集运动捕捉)¶
| 配置 | MPJPE(mm)↓ | PA-MPJPE(mm)↓ | 说明 |
|---|---|---|---|
| Ego4o-IMU (仅IMU) | 95.86 | 69.03 | 基线 |
| 仅GT文本+IMU | 86.22 | 63.14 | 文本带来明显提升 |
| 仅图像+IMU | 90.81 | 66.04 | 图像亦有贡献 |
| 生成文本+IMU | 88.65 | 64.79 | 生成描述也有效 |
| 图像+生成文本+IMU | 87.00 | 63.67 | 接近完整模型 |
| Ego4o (完整) | 84.82 | 62.33 | 最优 |
关键发现¶
- 仅使用IMU输入,Ego4o-IMU已超越IMUPoser(MPJPE: 95.86 vs 105.7),验证了部位感知VQ-VAE表示的优势
- 多模态融合(图像+文本+IMU)比纯IMU进一步降低MPJPE约11mm,验证了模态互补性
- AI生成的运动描述可替代人工描述有效提升性能(88.65 vs 95.86),这是一个重要发现——系统可以自己生成描述来增强自己
- 运动描述生成上,Ego4o在BERTScore(30.13 vs 14.09)和RougeL(38.95 vs 32.33)上大幅超越MotionGPT
- 移除图像或运动token都会导致描述生成质量下降,验证了两种模态对理解任务的互补贡献
亮点与洞察¶
- 闭环设计是最大亮点:运动捕捉→生成描述→描述反哺运动捕捉,这种自增强机制在实际部署中非常有价值(用户无需手动提供描述)
- 部位感知VQ-VAE很好地解决了灵活IMU配置的问题,将"有哪些传感器"转化为"哪些码本有直接输入、哪些需要推理"
- 随机掩码训练策略简单但极其有效,使单一模型适配所有可能的输入组合
- 将运动码本作为LLM的新"语言"是一个优雅的跨模态桥接方案
局限与展望¶
- 需要完整运动序列作为输入,引入了延迟,不适用于实时在线应用
- 测试时优化虽然提升了精度,但引入了额外的推理时间成本
- Nymeria数据集规模有限(约170k序列),更大规模数据可能进一步提升泛化
- 第一人称图像中人体严重自遮挡,图像模态的贡献受限于视角
相关工作与启发¶
- IMUPoser/MobilePoser等纯IMU方法验证了稀疏传感器的可行性,本文在此基础上扩展多模态融合
- MotionGPT等方法将运动理解为语言任务,本文进一步证明多模态输入可显著提升描述质量
- EgoLM使用LLM做运动捕捉但计算成本高且精度低,本文的编码器-解码器架构更实用
- Part-aware VQ-VAE来自TLControl,本文将其从运动生成场景迁移到运动捕捉
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 多模态运动捕捉+理解的闭环框架,自增强设计是原创性贡献
- 实验充分度: ⭐⭐⭐⭐ 在DIP-IMU和Nymeria上验证但缺少更多基线比较
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,动机阐述充分
- 价值: ⭐⭐⭐⭐⭐ 面向消费级穿戴设备的实际应用场景,闭环增强机制具有很强的实用价值
相关论文¶
- [CVPR 2025] HuMoCon: Concept Discovery for Human Motion Understanding
- [CVPR 2025] H-MoRe: Learning Human-centric Motion Representation for Action Analysis
- [CVPR 2025] FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video
- [NeurIPS 2025] PixFoundation 2.0: Do Video Multi-Modal LLMs Use Motion in Visual Grounding?
- [CVPR 2025] MLVU: Benchmarking Multi-task Long Video Understanding