跳转至

Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input

会议: CVPR 2025
arXiv: 2504.08449
代码: https://jianwang-mpi.github.io/ego4o (有项目页)
领域: 视频理解
关键词: 第一人称运动捕捉, 多模态融合, IMU传感器, 运动描述生成, VQ-VAE

一句话总结

提出Ego4o统一框架,从穿戴设备的多模态输入(1-3个IMU + 第一人称图像 + 运动描述)同时实现人体运动捕捉和运动描述生成,且两个任务可互相增强。

研究背景与动机

随着VR/AR头显、智能眼镜、手机、智能手表等可穿戴设备的普及,利用这些设备数据进行人体运动捕捉和理解具有广泛应用前景。然而现有方法面临几个关键挑战:

  1. 单模态局限:现有方法大多只利用单一模态——第一人称相机方法(EgoBody等)受限于自遮挡严重,IMU方法(IMUPoser等)在静止姿态估计上能力不足,文本描述缺乏精细运动细节
  2. 模态互补性未被利用:不同模态具有天然的互补性——图像和文本提供语义上下文(如看到桌子说明在坐着),IMU提供精确的肢体运动数据(如手表IMU可区分乒乓球的扣杀和挡球动作)
  3. 输入灵活性需求:用户可能随时开关摄像头/麦克风,佩戴不同数量的传感器,系统需要适应输入模态的动态变化

方法详解

整体框架

Ego4o包含三个核心部分:(1) Part-aware VQ-VAE学习分部位的离散运动表示;(2) 多模态编码器将IMU信号、第一人称图像、运动描述投射到运动表示空间,VQ-VAE解码器重建人体运动;(3) 多模态LLM接收运动编码和第一人称图像生成运动描述,描述反过来增强运动捕捉精度,形成闭环。

关键设计

  1. 部位感知VQ-VAE(Part-aware VQ-VAE):

    • 功能:学习按身体部位分解的离散运动表示
    • 核心思路:将22个关节分为6组(头、左臂、右臂、左腿、右腿、躯干),每组训练独立的编码器 \(\mathcal{E}_i\) 和码本 \(C_i \in \mathbb{R}^{N_{code} \times d}\)。输入动作序列转为HumanML3D表示 \(J \in \mathbb{R}^{T \times 263}\),编码为 \(Q_i \in \mathbb{R}^{T' \times d}\)\(T'=T/4\)),量化后拼接送入共享解码器 \(\mathcal{D}\)
    • 设计动机:区别于将全身作为整体编码的传统方法,部位分解允许将不同位置的IMU信号直接映射到对应的部位码本,同时推理无传感器覆盖部位的运动——类似NLP中的文本填充任务
  2. 多模态编码器与随机掩码训练:

    • 功能:融合多模态输入,输出运动码本中的编码ID
    • 核心思路:用CLIP编码第一人称图像得到 \(F_I\) 和文本得到 \(F_T\),IMU加速度 \(A \in \mathbb{R}^{T \times 5 \times 3}\) 和旋转(转为6D表示 \(R_{6d} \in \mathbb{R}^{T \times 5 \times 6}\))拼接为序列 \(F_{imu}\)。三种特征通过嵌入层后送入Transformer编码器,预测各IMU对应的运动码ID的logits \(L_{t,i}\),用Gumbel Softmax采样码字索引。训练损失包括分类损失和重建损失:\(\mathcal{L} = \mathbb{E}_{\hat{L}}(-\log P(\hat{L}|A,R,I,T_m)) + \lambda\|\hat{J}-J\|_2\)
    • 设计动机:随机掩码是本方法支持灵活输入的关键——训练时随机掩蔽图像和文本,随机选择1-3个IMU作为有效输入,使模型学会在任意输入组合下工作
  3. 多模态LLM运动理解与反馈增强:

    • 功能:生成运动描述,描述反馈增强运动捕捉
    • 核心思路:扩展LLaVA-7B,新增运动模态——运动码通过线性嵌入层 \(\mathbf{E}_M\) 映射到LLM词嵌入空间。训练分两阶段:(1) 运动预训练仅训练运动嵌入层实现特征对齐;(2) 多模态微调用LoRA更新LLM参数,同时更新图像和运动嵌入层。关键洞察:生成的运动描述虽非完美,但可作为有价值的归纳偏置反馈给运动捕捉模块,显著提升无人工描述时的性能
    • 设计动机:利用LLM的上下文推理能力和图像理解能力来生成高质量运动描述;闭环设计使运动捕捉与理解互相增强

损失函数 / 训练策略

运动捕捉:分类损失 + \(\lambda\) 加权的重建L2损失。测试时优化(可选):在VQ-VAE潜在空间中优化运动特征 \(Q\),使预测运动的加速度和朝向匹配IMU观测:

\[Q^* = \arg\min_Q \lambda_a L_a(J, A) + \lambda_r L_r(J, R)\]

运动理解:标准的自回归负对数似然损失。训练输入随机选择 \(X_{ins} = \text{RandomSelect}\{[I, X_q], [A,R,X_q], [A,R,I,X_q]\}\)

实验关键数据

主实验(运动捕捉精度)

方法 数据集 MPJPE(mm)↓ PA-MPJPE(mm)↓ Jitter(km/s³)↓
IMUPoser (1-3 IMU) DIP-IMU 97 0.19
Ego4o-IMU (1-3 IMU) DIP-IMU 84.06 63.95 0.076
IMUPoser (1-3 IMU) Nymeria 105.7 72.94 0.054
Ego4o-IMU (1-3 IMU) Nymeria 95.86 69.03 0.049
Ego4o (全模态) Nymeria 84.82 62.33 0.048

消融实验(Nymeria数据集运动捕捉)

配置 MPJPE(mm)↓ PA-MPJPE(mm)↓ 说明
Ego4o-IMU (仅IMU) 95.86 69.03 基线
仅GT文本+IMU 86.22 63.14 文本带来明显提升
仅图像+IMU 90.81 66.04 图像亦有贡献
生成文本+IMU 88.65 64.79 生成描述也有效
图像+生成文本+IMU 87.00 63.67 接近完整模型
Ego4o (完整) 84.82 62.33 最优

关键发现

  • 仅使用IMU输入,Ego4o-IMU已超越IMUPoser(MPJPE: 95.86 vs 105.7),验证了部位感知VQ-VAE表示的优势
  • 多模态融合(图像+文本+IMU)比纯IMU进一步降低MPJPE约11mm,验证了模态互补性
  • AI生成的运动描述可替代人工描述有效提升性能(88.65 vs 95.86),这是一个重要发现——系统可以自己生成描述来增强自己
  • 运动描述生成上,Ego4o在BERTScore(30.13 vs 14.09)和RougeL(38.95 vs 32.33)上大幅超越MotionGPT
  • 移除图像或运动token都会导致描述生成质量下降,验证了两种模态对理解任务的互补贡献

亮点与洞察

  • 闭环设计是最大亮点:运动捕捉→生成描述→描述反哺运动捕捉,这种自增强机制在实际部署中非常有价值(用户无需手动提供描述)
  • 部位感知VQ-VAE很好地解决了灵活IMU配置的问题,将"有哪些传感器"转化为"哪些码本有直接输入、哪些需要推理"
  • 随机掩码训练策略简单但极其有效,使单一模型适配所有可能的输入组合
  • 将运动码本作为LLM的新"语言"是一个优雅的跨模态桥接方案

局限与展望

  • 需要完整运动序列作为输入,引入了延迟,不适用于实时在线应用
  • 测试时优化虽然提升了精度,但引入了额外的推理时间成本
  • Nymeria数据集规模有限(约170k序列),更大规模数据可能进一步提升泛化
  • 第一人称图像中人体严重自遮挡,图像模态的贡献受限于视角

相关工作与启发

  • IMUPoser/MobilePoser等纯IMU方法验证了稀疏传感器的可行性,本文在此基础上扩展多模态融合
  • MotionGPT等方法将运动理解为语言任务,本文进一步证明多模态输入可显著提升描述质量
  • EgoLM使用LLM做运动捕捉但计算成本高且精度低,本文的编码器-解码器架构更实用
  • Part-aware VQ-VAE来自TLControl,本文将其从运动生成场景迁移到运动捕捉

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 多模态运动捕捉+理解的闭环框架,自增强设计是原创性贡献
  • 实验充分度: ⭐⭐⭐⭐ 在DIP-IMU和Nymeria上验证但缺少更多基线比较
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,动机阐述充分
  • 价值: ⭐⭐⭐⭐⭐ 面向消费级穿戴设备的实际应用场景,闭环增强机制具有很强的实用价值

相关论文