EgoLM: Multi-Modal Language Model of Egocentric Motions¶

会议: CVPR 2025
arXiv: 2409.18127
代码: https://hongfz16.github.io/projects/EgoLM
领域: 多模态VLM
关键词: 自我中心动作、稀疏传感器追踪、动作-语言模型、VQ-VAE、多模态统一

一句话总结¶

提出统一自我中心动作追踪（稀疏传感器→全身动作）和动作理解（动作→语言描述）的多模态语言模型框架，通过 VQ-VAE 动作 tokenizer + GPT-2 骨干实现四种模态（文本、动作 token、传感器、视频）的联合建模，加入自我中心视频后追踪误差降低 10-20mm。

研究背景与动机¶

领域现状：自我中心动作追踪使用头戴设备的稀疏传感器（3 点或 1 点 6-DoF）恢复全身姿态，是 AR/VR 的核心任务。当前方法如 AvatarPoser、BoDiffusion 仅使用传感器数据，无法利用头戴设备的自我中心相机。同时，动作理解（将动作转化为自然语言描述）是独立的研究方向，未与追踪任务统一。

现有痛点：(1) 稀疏传感器追踪是严重的欠约束问题——3 个传感器恢复 22 个关节，下半身几乎无约束，导致下肢误差巨大（>150mm）。(2) 自我中心视频包含丰富的环境和交互线索可以消歧，但现有追踪方法无法融合视频信息。(3) 动作追踪和动作理解是高度关联但被分别研究的任务。

核心矛盾：稀疏传感器的信息量不足以准确恢复全身下半身动作，需要额外模态（视频）来提供约束；同时，动作和语言分属不同模态，缺乏统一的建模框架。

本文目标 设计一个统一框架，同时处理自我中心动作追踪和动作理解，利用自我中心视频消歧传感器数据，并实现动作-语言的双向转换。

切入角度：将动作量化为离散 token（VQ-VAE），与文本 token 共享同一词表空间，使 GPT-2 能用 next-token prediction 统一处理追踪（生成动作 token）和理解（生成文本 token）两种任务。

核心 idea：用 VQ-VAE 将连续动作序列离散化为 token，通过 GPT-2 统一建模传感器、视频、动作 token 和文本四种模态，实现追踪与理解的联合优化。

方法详解¶

整体框架¶

三阶段训练：(1) VQ-VAE 动作 tokenizer 训练（将连续动作编码为离散 token）→ (2) 动作预训练（GPT-2 在动作 token 序列上做 next-token prediction）→ (3) 多模态指令微调（引入传感器编码器和视频编码器，训练追踪+理解+M2T+T2M 四种任务）。

关键设计¶

动作 VQ-VAE Tokenizer（Product Quantization）:
- 功能：将 279 维/帧的连续动作表征压缩为离散 token 序列
- 核心思路：全卷积编码器-解码器架构，4× 时间下采样。关键创新是 Product Quantization——将 latent 特征分为 \(N=2\) 段，每段独立用 8192 码本量化（维度 64）。最终每帧产生 \(N \times (T/r) = 2 \times (T/4)\) 个 token。重建损失包含原始表征、关节位置和旋转速度三项
- 设计动机：单码本量化（PQ=1）的 MPJPE 为 51.6mm，Product Quantization（PQ=2）降至 34.5mm（-33%），因为双码本组合提供了 \(8192^2 \approx 67M\) 个有效编码条目，大幅提升了表征精度
自我中心视频消歧:
- 功能：为欠约束的稀疏传感器追踪提供额外的视觉约束
- 核心思路：每帧自我中心视频经 CLIP 图像编码器提取特征，通过线性投影映射到 LLM 特征空间。视频特征与传感器编码器输出拼接作为 GPT-2 的条件输入
- 设计动机：消融实验显示，加入视频后 3 点追踪全身误差从 83.88mm 降至 73.38mm（-12.5%），1 点追踪从 127.45mm 降至 106.95mm（-16.1%）。视频提供了"人在做什么"（走路、弯腰、跳跃）的环境线索，下肢改善最明显（3 点：148.37→124.58mm）
多任务指令微调:
- 功能：统一追踪和理解两种任务的训练
- 核心思路：设计指令模板区分四种任务——追踪（传感器+视频→动作 token）、理解（传感器+视频→文本）、M2T（动作→文本）、T2M（文本→动作）。所有任务共享 GPT-2 参数，通过指令模板区分输入输出格式
- 设计动机：联合训练使追踪监督帮助理解——动作追踪提供的运动先验改善了语言描述的质量。消融显示联合训练的理解性能（BERT 19.40）接近级联方式（19.97）

损失函数 / 训练策略¶

VQ-VAE 阶段：重建损失（原始表征 + 关节位置 + 旋转速度）+ commitment 损失 + EMA 码本更新。LM 阶段：next-token prediction 交叉熵损失。模型骨干为 GPT-2 Medium（345M），也测试了 GPT-2 Large（1.5B）。数据集为 Nymeria（147.89 小时训练数据）。

实验关键数据¶

主实验¶

方法	输入	全身(mm)	上半身(mm)	下半身(mm)
AvatarPoser	3pts	85.89	52.78	165.18
BoDiffusion	3pts	79.80	52.79	152.68
EgoLM	3pts	83.88	54.06	148.37
EgoLM	3pts+Vid	73.38	49.67	124.58
AvatarPoser†	1pt	129.23	94.19	192.34
EgoLM	1pt+Vid	106.95	83.73	141.26

消融实验¶

配置	MPJPE	说明
VQ-VAE PQ=1	51.60mm	单码本
VQ-VAE PQ=2	34.49mm	双码本，-33%
60帧无视频	83.88mm	基线
120帧无视频	79.61mm	长窗口帮助
60帧+视频	73.38mm	视频 > 长窗口
GPT-2 Medium (345M)	BERT 18.38	基线
GPT-2 Large (1.5B)	BERT 19.56	LM 规模提升理解

关键发现¶

视频比长窗口更有效：60 帧+视频（73.38mm）优于 120 帧无视频（79.61mm），说明环境上下文比更长的运动历史更有价值
下半身改善最显著：3 点追踪下半身误差从 148.37mm 降至 124.58mm（-16%），因为下半身无传感器，视频中可见的脚步和地面交互提供了关键约束
视频理解超越动作理解：V2T（BERT 16.62）优于 M2T（15.90），因为很多动作描述涉及环境信息（"走进隧道"），视频直接提供了动作序列无法表达的场景语义
Product Quantization 是关键：PQ=1→2 降低 MPJPE 超过 17mm，证明运动表征的精度对下游任务至关重要

亮点与洞察¶

"动作离散化+LLM 统一建模"的框架巧妙地将连续的运动控制问题转化为语言建模问题，使追踪和理解自然统一。这种范式可以推广到机器人操控（传感器→动作→语言描述）
视频消歧的实证价值：明确量化了自我中心视频对稀疏追踪的帮助（10-20mm），为 AR/VR 设备的多传感器融合提供了有力依据
副产品能力：框架天然支持无条件动作生成和文本到动作生成，一个模型覆盖四种任务

局限与展望¶

VQ-VAE 重建误差（34.5mm）设置了追踪精度的天花板，更好的量化方法（如残差量化 RQ-VAE）可能带来提升
CLIP 逐帧编码视频丢失了细粒度时间信息（如具体物体名称），可以用视频编码器替代
GPT-2 Medium 仅 345M 参数，换成更大的 LLM 可能显著提升理解能力（1.5B 已显示提升趋势）
语言输出存在幻觉问题，缺乏事实性保障机制

评分¶

新颖性: ⭐⭐⭐⭐ 首次统一自我中心动作追踪和理解，VQ-VAE + LLM 的框架设计优雅
实验充分度: ⭐⭐⭐⭐ 追踪和理解两个方向都有完整对比和消融，VQ-VAE 参数搜索详尽
写作质量: ⭐⭐⭐⭐ 框架动机清晰，多任务统一的论述有说服力
价值: ⭐⭐⭐⭐ 对 AR/VR 中的自我中心交互有直接应用价值，多模态统一建模范式有启发性