EgoPoser: Robust Real-Time Egocentric Pose Estimation from Sparse and Intermittent Observations Everywhere¶
会议: ECCV 2024
arXiv: 2308.06493
代码: https://github.com/siplab-gt/EgoPoser (有)
领域: 视频理解 / 人体姿态估计
关键词: 自我中心姿态估计, 混合现实, 稀疏追踪, 全局运动分解, SlowFast
一句话总结¶
提出 EgoPoser,仅从头显设备的头部和手部稀疏且间歇性追踪信号中,鲁棒地估计全身姿态,通过全局运动分解、真实视野建模、SlowFast时序融合和体型感知优化四大核心设计,在大规模真实场景中实现SOTA性能,推理速度超600fps。
研究背景与动机¶
当前混合现实(MR)系统(如 Meta Quest、Apple Vision Pro、HoloLens)的追踪信号仅来自头部和双手的三点稀疏输入,从这些信号恢复全身姿态是一个严重欠定的问题。现有方法存在三大核心痛点:
全局位置过拟合:先前方法(AvatarPoser、AGRoL、AvatarJLM)直接使用世界坐标系下的全局位姿作为网络输入,导致模型严重过拟合于训练数据中靠近原点的动作。当用户在大场景中移动时(仅偏移几米),预测精度急剧下降。
假设手部始终可见:现有方法假设手部追踪信号连续可用,但实际头显的内向外追踪相机有有限视野(FoV),手部频繁离开视野导致追踪中断。
忽略体型差异:现有方法假设统一的平均体型骨架,无法适应不同用户的身体尺寸差异,产生浮空和穿地等运动伪影。
核心 idea:通过全局运动分解实现位置无关的姿态预测,通过真实 FoV 建模处理间歇性手部信号,通过体型感知优化适应不同用户。
方法详解¶
整体框架¶
EgoPoser 接收头显设备提供的头部和手部的全局位置 \(\mathbf{p}\) 和朝向 \(\boldsymbol{\Theta}\)(共3个追踪点),经过真实FoV建模→全局运动分解→SlowFast特征融合→Transformer编码器→人体运动解码器,输出全局根朝向 \(\theta_{\text{global}}\)、局部关节旋转 \(\theta_{\text{local}}\) 和体型参数 \(\beta\)。输入窗口为最近80帧(经 SlowFast 融合为40帧),最终通过 SMPL 模型和前向运动学生成全身22个关节的位置。
关键设计¶
-
真实视野(FoV)建模:不同于先前工作的随机帧丢弃,EgoPoser 根据头部姿态与手部相对位置的空间关系,真实模拟头显摄像头的视锥体。水平 FoV 角度 \(\alpha_h\) 和垂直 FoV 角度 \(\alpha_v\) 决定手部在头部坐标系中的可见性。当手部位于 FoV 之外时,将对应输入特征置零,同时保留时间连续性信息。这种建模捕获了手部进出视野的真实时序依赖关系。
-
全局运动分解(GMD):结合全局和局部表示的优点,提出位置无关的姿态估计策略,包含两个核心操作:
- 时间归一化(TN):从每个关节在时间窗口内的轨迹中减去第一帧的平移,提取相对全局轨迹:\(\mathbf{p}_{\text{TN}}^{t_i,j} = \mathbf{p}_W^{t_i,j} - \mathbf{p}_W^{t_0,j}\)
- 空间归一化(SN):仅归一化手部相对于头部的水平平移,保留全局垂直平移作为编码运动先验的关键特征:\(\mathbf{p}_{\text{SN},h}^{t_i,\text{hand}} = \mathbf{p}_{W,h}^{t_i,\text{hand}} - \mathbf{p}_{W,h}^{t_i,\text{head}}\)
- 设计动机:纯全局表示导致位置过拟合,纯局部表示(如头部为参考系)则丢失信息且对头部旋转敏感,GMD 通过保留垂直位移信息巧妙平衡两者。
-
SlowFast 特征融合模块:受视频识别中 SlowFast 网络启发,给定输入窗口 \(\tau\) 帧,FAST 分支取最近 \(\tau/2\) 帧保持高时间分辨率,SLOW 分支以步长2采样整个窗口得到 \(\tau/2\) 帧捕获长程上下文,两者拼接后送入 Transformer。输入序列长度缩短为原来的一半,在不增加计算开销(Transformer 自注意力复杂度 \(O(n^2)\))的前提下覆盖两倍的时间跨度。
-
体型感知姿态优化:提出两种方案解决体型差异问题:
- 方案1:数据增强+T-pose 校准——用真实体型参数增强训练数据,测试时通过身高和臂长比例因子缩放输出
- 方案2(免校准):联合估计姿态和体型参数 \(\beta\),通过可微分 SMPL 模型的前向运动学间接优化 \(\beta\):\(\mathcal{L}_{\text{pos}} = \|\text{FK}(\theta, \beta) - \text{FK}(\theta_{GT}, \beta_{GT})\|_1\),并对 \(\beta\) 施加 L1 正则化鼓励稀疏性
损失函数 / 训练策略¶
总损失函数为四项 L1 损失的加权和:
其中权重分别为 \(\lambda_{\text{ori}}=0.05\), \(\lambda_{\text{rot}}=1\), \(\lambda_{\text{pos}}=1\), \(\lambda_{\beta}=0.01\)。使用 Adam 优化器,batch size 256,初始学习率 \(1\times10^{-4}\),每 \(2\times10^4\) 迭代衰减 0.5 倍,在单张 3090 GPU 上训练。
实验关键数据¶
主实验¶
在大规模真实场景 HPS 数据集上与SOTA方法对比(训练集均为AMASS的CMU/BMLrub/HDM05子集):
| 场景 | 指标 | EgoPoser | AvatarPoser | AGRoL | AvatarJLM |
|---|---|---|---|---|---|
| BIB_EG_Tour | MPJPE(cm) | 9.55 | 22.53 | 28.95 | 41.27 |
| BIB_EG_Tour | MPJVE(cm/s) | 49.39 | 60.25 | 166.34 | 82.92 |
| MPI_EG | MPJPE(cm) | 11.05 | 16.54 | 19.41 | 12.91 |
| Working_Standing | MPJPE(cm) | 8.70 | 19.08 | 17.67 | 17.26 |
| Go_Around | MPJPE(cm) | 6.90 | 19.50 | 14.16 | 11.57 |
消融实验¶
全局运动分解消融(AMASS 数据集):
| 配置 | MPJPE(cm) | MPJVE(cm/s) | 说明 |
|---|---|---|---|
| 全特征均值归一化 | 6.25 | 42.69 | 去除均值,信息损失大 |
| 空间归一化(水平位移) | 4.45 | 27.56 | 保留垂直信息有帮助 |
| 仅时间归一化 | 4.58 | 28.01 | 提取相对轨迹 |
| 完整GMD(时间+空间) | 4.14 | 25.95 | 两者互补效果最优 |
SlowFast 设计消融:
| 配置 | MPJPE(cm) | MPJVE(cm/s) | FLOPs | 参数量 |
|---|---|---|---|---|
| 40帧输入 | 4.36 | 28.12 | 0.33G | 4.12M |
| 80帧输入 | 4.11 | 29.27 | 0.65G | 4.12M |
| 80帧降采样2x | 4.13 | 30.02 | 0.33G | 4.12M |
| SlowFast融合 | 4.14 | 25.95 | 0.33G | 4.12M |
不同FoV下的手部可见性策略对比:
| 策略 | FoV=180° MPJPE | FoV=120° MPJPE | FoV=90° MPJPE |
|---|---|---|---|
| 假设全部可见 | 24.75 | 38.99 | 41.24 |
| 随机遮挡(FLAG) | 7.09 | 13.29 | 14.84 |
| 改进的随机遮挡 | 6.52 | 11.88 | 12.83 |
| 真实FoV建模 | 5.31 | 6.07 | 6.60 |
关键发现¶
- 全局输入表示导致的过拟合问题非常严重:偏移原点仅5米,AvatarPoser的MPJPE从约5cm飙升至25cm+
- 保留垂直位移信息对姿态估计至关重要(空间归一化水平vs完整的差异明显)
- SlowFast 以相同计算量获得显著更低的速度误差MPJVE(25.95 vs 28-30 cm/s)
- 体型估计将 MPJPE 从 6.36cm(平均体型)降至 4.79cm,穿地距离从 3.87cm 降至 2.31cm
亮点与洞察¶
- 问题揭示深刻:首次系统揭示全局位置表示导致的过拟合问题,这个发现对整个领域都有借鉴价值
- 设计朴素有效:全局运动分解策略简单优雅,仅通过坐标变换就实现了位置无关性
- 工程价值高:600+ fps 的推理速度远超同类方法,已在 Quest 2 真机上验证,具有很强的实际部署价值
- 全面性:同时解决了大场景泛化、手部遮挡、体型适配三个实际问题
局限与展望¶
- 假设用户在同一楼层移动(编码了垂直全局位置),跨楼层需重置原点
- 骨干网络采用简单 Transformer,更精细的模型设计(如关节级建模)可能进一步提升
- 缺少后处理步骤(如物理约束、碰撞检测等),可进一步提高物理合理性
- 手指姿态未建模(仅估计22个SMPL-H关节),对精细交互场景有限
相关工作与启发¶
- AvatarPoser (CVPR 2022):奠定了头显三点追踪到全身姿态估计的基线框架
- AGRoL (CVPR 2023):扩散模型方法,质量高但推理慢且依赖未来帧
- FLAG:提出随机遮挡数据增强解决手部不可见,但未考虑空间位置关系
- SlowFast Networks (ICCV 2019):视频识别中的双速率设计被巧妙迁移到时序信号处理
评分¶
- 新颖性: ⭐⭐⭐⭐ 全局运动分解是本文最突出的贡献,首次揭示并解决了全局表示过拟合问题
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多方法对比、详尽消融、真机验证,实验设计极为全面
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述系统,图文配合好
- 价值: ⭐⭐⭐⭐⭐ 解决了MR姿态估计中的三个核心实际问题,600fps推理速度使其具有直接的工业部署价值
相关论文¶
- [ECCV 2024] Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects
- [CVPR 2026] EgoXtreme: A Dataset for Robust Object Pose Estimation in Egocentric Views under Extreme Conditions
- [ECCV 2024] Motion-prior Contrast Maximization for Dense Continuous-Time Motion Estimation
- [CVPR 2025] Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking
- [ECCV 2024] AMEGO: Active Memory from Long EGOcentric Videos