EgoLM: Multi-Modal Language Model of Egocentric Motions¶
会议: CVPR 2025
arXiv: 2409.18127
代码: https://hongfz16.github.io/projects/EgoLM
领域: 多模态VLM
关键词: 自我中心动作、稀疏传感器追踪、动作-语言模型、VQ-VAE、多模态统一
一句话总结¶
提出统一自我中心动作追踪(稀疏传感器→全身动作)和动作理解(动作→语言描述)的多模态语言模型框架,通过 VQ-VAE 动作 tokenizer + GPT-2 骨干实现四种模态(文本、动作 token、传感器、视频)的联合建模,加入自我中心视频后追踪误差降低 10-20mm。
研究背景与动机¶
领域现状:自我中心动作追踪使用头戴设备的稀疏传感器(3 点或 1 点 6-DoF)恢复全身姿态,是 AR/VR 的核心任务。当前方法如 AvatarPoser、BoDiffusion 仅使用传感器数据,无法利用头戴设备的自我中心相机。同时,动作理解(将动作转化为自然语言描述)是独立的研究方向,未与追踪任务统一。
现有痛点:(1) 稀疏传感器追踪是严重的欠约束问题——3 个传感器恢复 22 个关节,下半身几乎无约束,导致下肢误差巨大(>150mm)。(2) 自我中心视频包含丰富的环境和交互线索可以消歧,但现有追踪方法无法融合视频信息。(3) 动作追踪和动作理解是高度关联但被分别研究的任务。
核心矛盾:稀疏传感器的信息量不足以准确恢复全身下半身动作,需要额外模态(视频)来提供约束;同时,动作和语言分属不同模态,缺乏统一的建模框架。
本文目标 设计一个统一框架,同时处理自我中心动作追踪和动作理解,利用自我中心视频消歧传感器数据,并实现动作-语言的双向转换。
切入角度:将动作量化为离散 token(VQ-VAE),与文本 token 共享同一词表空间,使 GPT-2 能用 next-token prediction 统一处理追踪(生成动作 token)和理解(生成文本 token)两种任务。
核心 idea:用 VQ-VAE 将连续动作序列离散化为 token,通过 GPT-2 统一建模传感器、视频、动作 token 和文本四种模态,实现追踪与理解的联合优化。
方法详解¶
整体框架¶
三阶段训练:(1) VQ-VAE 动作 tokenizer 训练(将连续动作编码为离散 token)→ (2) 动作预训练(GPT-2 在动作 token 序列上做 next-token prediction)→ (3) 多模态指令微调(引入传感器编码器和视频编码器,训练追踪+理解+M2T+T2M 四种任务)。
关键设计¶
-
动作 VQ-VAE Tokenizer(Product Quantization):
- 功能:将 279 维/帧的连续动作表征压缩为离散 token 序列
- 核心思路:全卷积编码器-解码器架构,4× 时间下采样。关键创新是 Product Quantization——将 latent 特征分为 \(N=2\) 段,每段独立用 8192 码本量化(维度 64)。最终每帧产生 \(N \times (T/r) = 2 \times (T/4)\) 个 token。重建损失包含原始表征、关节位置和旋转速度三项
- 设计动机:单码本量化(PQ=1)的 MPJPE 为 51.6mm,Product Quantization(PQ=2)降至 34.5mm(-33%),因为双码本组合提供了 \(8192^2 \approx 67M\) 个有效编码条目,大幅提升了表征精度
-
自我中心视频消歧:
- 功能:为欠约束的稀疏传感器追踪提供额外的视觉约束
- 核心思路:每帧自我中心视频经 CLIP 图像编码器提取特征,通过线性投影映射到 LLM 特征空间。视频特征与传感器编码器输出拼接作为 GPT-2 的条件输入
- 设计动机:消融实验显示,加入视频后 3 点追踪全身误差从 83.88mm 降至 73.38mm(-12.5%),1 点追踪从 127.45mm 降至 106.95mm(-16.1%)。视频提供了"人在做什么"(走路、弯腰、跳跃)的环境线索,下肢改善最明显(3 点:148.37→124.58mm)
-
多任务指令微调:
- 功能:统一追踪和理解两种任务的训练
- 核心思路:设计指令模板区分四种任务——追踪(传感器+视频→动作 token)、理解(传感器+视频→文本)、M2T(动作→文本)、T2M(文本→动作)。所有任务共享 GPT-2 参数,通过指令模板区分输入输出格式
- 设计动机:联合训练使追踪监督帮助理解——动作追踪提供的运动先验改善了语言描述的质量。消融显示联合训练的理解性能(BERT 19.40)接近级联方式(19.97)
损失函数 / 训练策略¶
VQ-VAE 阶段:重建损失(原始表征 + 关节位置 + 旋转速度)+ commitment 损失 + EMA 码本更新。LM 阶段:next-token prediction 交叉熵损失。模型骨干为 GPT-2 Medium(345M),也测试了 GPT-2 Large(1.5B)。数据集为 Nymeria(147.89 小时训练数据)。
实验关键数据¶
主实验¶
| 方法 | 输入 | 全身(mm) | 上半身(mm) | 下半身(mm) |
|---|---|---|---|---|
| AvatarPoser | 3pts | 85.89 | 52.78 | 165.18 |
| BoDiffusion | 3pts | 79.80 | 52.79 | 152.68 |
| EgoLM | 3pts | 83.88 | 54.06 | 148.37 |
| EgoLM | 3pts+Vid | 73.38 | 49.67 | 124.58 |
| AvatarPoser† | 1pt | 129.23 | 94.19 | 192.34 |
| EgoLM | 1pt+Vid | 106.95 | 83.73 | 141.26 |
消融实验¶
| 配置 | MPJPE | 说明 |
|---|---|---|
| VQ-VAE PQ=1 | 51.60mm | 单码本 |
| VQ-VAE PQ=2 | 34.49mm | 双码本,-33% |
| 60帧无视频 | 83.88mm | 基线 |
| 120帧无视频 | 79.61mm | 长窗口帮助 |
| 60帧+视频 | 73.38mm | 视频 > 长窗口 |
| GPT-2 Medium (345M) | BERT 18.38 | 基线 |
| GPT-2 Large (1.5B) | BERT 19.56 | LM 规模提升理解 |
关键发现¶
- 视频比长窗口更有效:60 帧+视频(73.38mm)优于 120 帧无视频(79.61mm),说明环境上下文比更长的运动历史更有价值
- 下半身改善最显著:3 点追踪下半身误差从 148.37mm 降至 124.58mm(-16%),因为下半身无传感器,视频中可见的脚步和地面交互提供了关键约束
- 视频理解超越动作理解:V2T(BERT 16.62)优于 M2T(15.90),因为很多动作描述涉及环境信息("走进隧道"),视频直接提供了动作序列无法表达的场景语义
- Product Quantization 是关键:PQ=1→2 降低 MPJPE 超过 17mm,证明运动表征的精度对下游任务至关重要
亮点与洞察¶
- "动作离散化+LLM 统一建模"的框架巧妙地将连续的运动控制问题转化为语言建模问题,使追踪和理解自然统一。这种范式可以推广到机器人操控(传感器→动作→语言描述)
- 视频消歧的实证价值:明确量化了自我中心视频对稀疏追踪的帮助(10-20mm),为 AR/VR 设备的多传感器融合提供了有力依据
- 副产品能力:框架天然支持无条件动作生成和文本到动作生成,一个模型覆盖四种任务
局限与展望¶
- VQ-VAE 重建误差(34.5mm)设置了追踪精度的天花板,更好的量化方法(如残差量化 RQ-VAE)可能带来提升
- CLIP 逐帧编码视频丢失了细粒度时间信息(如具体物体名称),可以用视频编码器替代
- GPT-2 Medium 仅 345M 参数,换成更大的 LLM 可能显著提升理解能力(1.5B 已显示提升趋势)
- 语言输出存在幻觉问题,缺乏事实性保障机制
相关工作与启发¶
- vs AvatarPoser / BoDiffusion:传统追踪方法仅用传感器数据,EgoLM 通过引入视频降低 10+mm 误差,但在仅用 3 点传感器时不如 BoDiffusion,加入视频后才反超
- vs MotionGPT / TM2T:这些是动作-语言转换的专用模型,EgoLM 在理解任务上超越它们(BERT 19.97 vs 14.09),得益于多任务联合训练和视频信息
- vs EgoEgo:EgoEgo 直接从自我中心视频预测动作但效果较差(132.16mm),EgoLM 将视频作为辅助信号而非唯一输入,更有效
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次统一自我中心动作追踪和理解,VQ-VAE + LLM 的框架设计优雅
- 实验充分度: ⭐⭐⭐⭐ 追踪和理解两个方向都有完整对比和消融,VQ-VAE 参数搜索详尽
- 写作质量: ⭐⭐⭐⭐ 框架动机清晰,多任务统一的论述有说服力
- 价值: ⭐⭐⭐⭐ 对 AR/VR 中的自我中心交互有直接应用价值,多模态统一建模范式有启发性
相关论文¶
- [CVPR 2025] Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector
- [CVPR 2025] MMRL: Multi-Modal Representation Learning for Vision-Language Models
- [CVPR 2025] GeoMM: On Geodesic Perspective for Multi-Modal Learning
- [ICCV 2025] Large Multi-modal Models Can Interpret Features in Large Multi-modal Models
- [ACL 2025] InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model