跳转至

EgoLM: Multi-Modal Language Model of Egocentric Motions

会议: CVPR 2025
arXiv: 2409.18127
代码: https://hongfz16.github.io/projects/EgoLM
领域: 多模态VLM
关键词: 自我中心动作、稀疏传感器追踪、动作-语言模型、VQ-VAE、多模态统一

一句话总结

提出统一自我中心动作追踪(稀疏传感器→全身动作)和动作理解(动作→语言描述)的多模态语言模型框架,通过 VQ-VAE 动作 tokenizer + GPT-2 骨干实现四种模态(文本、动作 token、传感器、视频)的联合建模,加入自我中心视频后追踪误差降低 10-20mm。

研究背景与动机

领域现状:自我中心动作追踪使用头戴设备的稀疏传感器(3 点或 1 点 6-DoF)恢复全身姿态,是 AR/VR 的核心任务。当前方法如 AvatarPoser、BoDiffusion 仅使用传感器数据,无法利用头戴设备的自我中心相机。同时,动作理解(将动作转化为自然语言描述)是独立的研究方向,未与追踪任务统一。

现有痛点:(1) 稀疏传感器追踪是严重的欠约束问题——3 个传感器恢复 22 个关节,下半身几乎无约束,导致下肢误差巨大(>150mm)。(2) 自我中心视频包含丰富的环境和交互线索可以消歧,但现有追踪方法无法融合视频信息。(3) 动作追踪和动作理解是高度关联但被分别研究的任务。

核心矛盾:稀疏传感器的信息量不足以准确恢复全身下半身动作,需要额外模态(视频)来提供约束;同时,动作和语言分属不同模态,缺乏统一的建模框架。

本文目标 设计一个统一框架,同时处理自我中心动作追踪和动作理解,利用自我中心视频消歧传感器数据,并实现动作-语言的双向转换。

切入角度:将动作量化为离散 token(VQ-VAE),与文本 token 共享同一词表空间,使 GPT-2 能用 next-token prediction 统一处理追踪(生成动作 token)和理解(生成文本 token)两种任务。

核心 idea:用 VQ-VAE 将连续动作序列离散化为 token,通过 GPT-2 统一建模传感器、视频、动作 token 和文本四种模态,实现追踪与理解的联合优化。

方法详解

整体框架

三阶段训练:(1) VQ-VAE 动作 tokenizer 训练(将连续动作编码为离散 token)→ (2) 动作预训练(GPT-2 在动作 token 序列上做 next-token prediction)→ (3) 多模态指令微调(引入传感器编码器和视频编码器,训练追踪+理解+M2T+T2M 四种任务)。

关键设计

  1. 动作 VQ-VAE Tokenizer(Product Quantization):

    • 功能:将 279 维/帧的连续动作表征压缩为离散 token 序列
    • 核心思路:全卷积编码器-解码器架构,4× 时间下采样。关键创新是 Product Quantization——将 latent 特征分为 \(N=2\) 段,每段独立用 8192 码本量化(维度 64)。最终每帧产生 \(N \times (T/r) = 2 \times (T/4)\) 个 token。重建损失包含原始表征、关节位置和旋转速度三项
    • 设计动机:单码本量化(PQ=1)的 MPJPE 为 51.6mm,Product Quantization(PQ=2)降至 34.5mm(-33%),因为双码本组合提供了 \(8192^2 \approx 67M\) 个有效编码条目,大幅提升了表征精度
  2. 自我中心视频消歧:

    • 功能:为欠约束的稀疏传感器追踪提供额外的视觉约束
    • 核心思路:每帧自我中心视频经 CLIP 图像编码器提取特征,通过线性投影映射到 LLM 特征空间。视频特征与传感器编码器输出拼接作为 GPT-2 的条件输入
    • 设计动机:消融实验显示,加入视频后 3 点追踪全身误差从 83.88mm 降至 73.38mm(-12.5%),1 点追踪从 127.45mm 降至 106.95mm(-16.1%)。视频提供了"人在做什么"(走路、弯腰、跳跃)的环境线索,下肢改善最明显(3 点:148.37→124.58mm)
  3. 多任务指令微调:

    • 功能:统一追踪和理解两种任务的训练
    • 核心思路:设计指令模板区分四种任务——追踪(传感器+视频→动作 token)、理解(传感器+视频→文本)、M2T(动作→文本)、T2M(文本→动作)。所有任务共享 GPT-2 参数,通过指令模板区分输入输出格式
    • 设计动机:联合训练使追踪监督帮助理解——动作追踪提供的运动先验改善了语言描述的质量。消融显示联合训练的理解性能(BERT 19.40)接近级联方式(19.97)

损失函数 / 训练策略

VQ-VAE 阶段:重建损失(原始表征 + 关节位置 + 旋转速度)+ commitment 损失 + EMA 码本更新。LM 阶段:next-token prediction 交叉熵损失。模型骨干为 GPT-2 Medium(345M),也测试了 GPT-2 Large(1.5B)。数据集为 Nymeria(147.89 小时训练数据)。

实验关键数据

主实验

方法 输入 全身(mm) 上半身(mm) 下半身(mm)
AvatarPoser 3pts 85.89 52.78 165.18
BoDiffusion 3pts 79.80 52.79 152.68
EgoLM 3pts 83.88 54.06 148.37
EgoLM 3pts+Vid 73.38 49.67 124.58
AvatarPoser† 1pt 129.23 94.19 192.34
EgoLM 1pt+Vid 106.95 83.73 141.26

消融实验

配置 MPJPE 说明
VQ-VAE PQ=1 51.60mm 单码本
VQ-VAE PQ=2 34.49mm 双码本,-33%
60帧无视频 83.88mm 基线
120帧无视频 79.61mm 长窗口帮助
60帧+视频 73.38mm 视频 > 长窗口
GPT-2 Medium (345M) BERT 18.38 基线
GPT-2 Large (1.5B) BERT 19.56 LM 规模提升理解

关键发现

  • 视频比长窗口更有效:60 帧+视频(73.38mm)优于 120 帧无视频(79.61mm),说明环境上下文比更长的运动历史更有价值
  • 下半身改善最显著:3 点追踪下半身误差从 148.37mm 降至 124.58mm(-16%),因为下半身无传感器,视频中可见的脚步和地面交互提供了关键约束
  • 视频理解超越动作理解:V2T(BERT 16.62)优于 M2T(15.90),因为很多动作描述涉及环境信息("走进隧道"),视频直接提供了动作序列无法表达的场景语义
  • Product Quantization 是关键:PQ=1→2 降低 MPJPE 超过 17mm,证明运动表征的精度对下游任务至关重要

亮点与洞察

  • "动作离散化+LLM 统一建模"的框架巧妙地将连续的运动控制问题转化为语言建模问题,使追踪和理解自然统一。这种范式可以推广到机器人操控(传感器→动作→语言描述)
  • 视频消歧的实证价值:明确量化了自我中心视频对稀疏追踪的帮助(10-20mm),为 AR/VR 设备的多传感器融合提供了有力依据
  • 副产品能力:框架天然支持无条件动作生成和文本到动作生成,一个模型覆盖四种任务

局限与展望

  • VQ-VAE 重建误差(34.5mm)设置了追踪精度的天花板,更好的量化方法(如残差量化 RQ-VAE)可能带来提升
  • CLIP 逐帧编码视频丢失了细粒度时间信息(如具体物体名称),可以用视频编码器替代
  • GPT-2 Medium 仅 345M 参数,换成更大的 LLM 可能显著提升理解能力(1.5B 已显示提升趋势)
  • 语言输出存在幻觉问题,缺乏事实性保障机制

相关工作与启发

  • vs AvatarPoser / BoDiffusion:传统追踪方法仅用传感器数据,EgoLM 通过引入视频降低 10+mm 误差,但在仅用 3 点传感器时不如 BoDiffusion,加入视频后才反超
  • vs MotionGPT / TM2T:这些是动作-语言转换的专用模型,EgoLM 在理解任务上超越它们(BERT 19.97 vs 14.09),得益于多任务联合训练和视频信息
  • vs EgoEgo:EgoEgo 直接从自我中心视频预测动作但效果较差(132.16mm),EgoLM 将视频作为辅助信号而非唯一输入,更有效

评分

  • 新颖性: ⭐⭐⭐⭐ 首次统一自我中心动作追踪和理解,VQ-VAE + LLM 的框架设计优雅
  • 实验充分度: ⭐⭐⭐⭐ 追踪和理解两个方向都有完整对比和消融,VQ-VAE 参数搜索详尽
  • 写作质量: ⭐⭐⭐⭐ 框架动机清晰,多任务统一的论述有说服力
  • 价值: ⭐⭐⭐⭐ 对 AR/VR 中的自我中心交互有直接应用价值,多模态统一建模范式有启发性

相关论文