跳转至

EgoPoser: Robust Real-Time Egocentric Pose Estimation from Sparse and Intermittent Observations Everywhere

会议: ECCV 2024
arXiv: 2308.06493
代码: https://github.com/siplab-gt/EgoPoser (有)
领域: 视频理解 / 人体姿态估计
关键词: 自我中心姿态估计, 混合现实, 稀疏追踪, 全局运动分解, SlowFast

一句话总结

提出 EgoPoser,仅从头显设备的头部和手部稀疏且间歇性追踪信号中,鲁棒地估计全身姿态,通过全局运动分解、真实视野建模、SlowFast时序融合和体型感知优化四大核心设计,在大规模真实场景中实现SOTA性能,推理速度超600fps。

研究背景与动机

当前混合现实(MR)系统(如 Meta Quest、Apple Vision Pro、HoloLens)的追踪信号仅来自头部和双手的三点稀疏输入,从这些信号恢复全身姿态是一个严重欠定的问题。现有方法存在三大核心痛点:

全局位置过拟合:先前方法(AvatarPoser、AGRoL、AvatarJLM)直接使用世界坐标系下的全局位姿作为网络输入,导致模型严重过拟合于训练数据中靠近原点的动作。当用户在大场景中移动时(仅偏移几米),预测精度急剧下降。

假设手部始终可见:现有方法假设手部追踪信号连续可用,但实际头显的内向外追踪相机有有限视野(FoV),手部频繁离开视野导致追踪中断。

忽略体型差异:现有方法假设统一的平均体型骨架,无法适应不同用户的身体尺寸差异,产生浮空和穿地等运动伪影。

核心 idea:通过全局运动分解实现位置无关的姿态预测,通过真实 FoV 建模处理间歇性手部信号,通过体型感知优化适应不同用户。

方法详解

整体框架

EgoPoser 接收头显设备提供的头部和手部的全局位置 \(\mathbf{p}\) 和朝向 \(\boldsymbol{\Theta}\)(共3个追踪点),经过真实FoV建模→全局运动分解→SlowFast特征融合→Transformer编码器→人体运动解码器,输出全局根朝向 \(\theta_{\text{global}}\)、局部关节旋转 \(\theta_{\text{local}}\) 和体型参数 \(\beta\)。输入窗口为最近80帧(经 SlowFast 融合为40帧),最终通过 SMPL 模型和前向运动学生成全身22个关节的位置。

关键设计

  1. 真实视野(FoV)建模:不同于先前工作的随机帧丢弃,EgoPoser 根据头部姿态与手部相对位置的空间关系,真实模拟头显摄像头的视锥体。水平 FoV 角度 \(\alpha_h\) 和垂直 FoV 角度 \(\alpha_v\) 决定手部在头部坐标系中的可见性。当手部位于 FoV 之外时,将对应输入特征置零,同时保留时间连续性信息。这种建模捕获了手部进出视野的真实时序依赖关系。

  2. 全局运动分解(GMD):结合全局和局部表示的优点,提出位置无关的姿态估计策略,包含两个核心操作:

    • 时间归一化(TN):从每个关节在时间窗口内的轨迹中减去第一帧的平移,提取相对全局轨迹:\(\mathbf{p}_{\text{TN}}^{t_i,j} = \mathbf{p}_W^{t_i,j} - \mathbf{p}_W^{t_0,j}\)
    • 空间归一化(SN):仅归一化手部相对于头部的水平平移,保留全局垂直平移作为编码运动先验的关键特征:\(\mathbf{p}_{\text{SN},h}^{t_i,\text{hand}} = \mathbf{p}_{W,h}^{t_i,\text{hand}} - \mathbf{p}_{W,h}^{t_i,\text{head}}\)
    • 设计动机:纯全局表示导致位置过拟合,纯局部表示(如头部为参考系)则丢失信息且对头部旋转敏感,GMD 通过保留垂直位移信息巧妙平衡两者。
  3. SlowFast 特征融合模块:受视频识别中 SlowFast 网络启发,给定输入窗口 \(\tau\) 帧,FAST 分支取最近 \(\tau/2\) 帧保持高时间分辨率,SLOW 分支以步长2采样整个窗口得到 \(\tau/2\) 帧捕获长程上下文,两者拼接后送入 Transformer。输入序列长度缩短为原来的一半,在不增加计算开销(Transformer 自注意力复杂度 \(O(n^2)\))的前提下覆盖两倍的时间跨度。

  4. 体型感知姿态优化:提出两种方案解决体型差异问题:

    • 方案1:数据增强+T-pose 校准——用真实体型参数增强训练数据,测试时通过身高和臂长比例因子缩放输出
    • 方案2(免校准):联合估计姿态和体型参数 \(\beta\),通过可微分 SMPL 模型的前向运动学间接优化 \(\beta\)\(\mathcal{L}_{\text{pos}} = \|\text{FK}(\theta, \beta) - \text{FK}(\theta_{GT}, \beta_{GT})\|_1\),并对 \(\beta\) 施加 L1 正则化鼓励稀疏性

损失函数 / 训练策略

总损失函数为四项 L1 损失的加权和:

\[\mathcal{L}_{\text{total}} = \lambda_{\text{ori}} \mathcal{L}_{\text{ori}} + \lambda_{\text{rot}} \mathcal{L}_{\text{rot}} + \lambda_{\text{pos}} \mathcal{L}_{\text{pos}} + \lambda_{\beta} \|\beta\|_1\]

其中权重分别为 \(\lambda_{\text{ori}}=0.05\), \(\lambda_{\text{rot}}=1\), \(\lambda_{\text{pos}}=1\), \(\lambda_{\beta}=0.01\)。使用 Adam 优化器,batch size 256,初始学习率 \(1\times10^{-4}\),每 \(2\times10^4\) 迭代衰减 0.5 倍,在单张 3090 GPU 上训练。

实验关键数据

主实验

在大规模真实场景 HPS 数据集上与SOTA方法对比(训练集均为AMASS的CMU/BMLrub/HDM05子集):

场景 指标 EgoPoser AvatarPoser AGRoL AvatarJLM
BIB_EG_Tour MPJPE(cm) 9.55 22.53 28.95 41.27
BIB_EG_Tour MPJVE(cm/s) 49.39 60.25 166.34 82.92
MPI_EG MPJPE(cm) 11.05 16.54 19.41 12.91
Working_Standing MPJPE(cm) 8.70 19.08 17.67 17.26
Go_Around MPJPE(cm) 6.90 19.50 14.16 11.57

消融实验

全局运动分解消融(AMASS 数据集):

配置 MPJPE(cm) MPJVE(cm/s) 说明
全特征均值归一化 6.25 42.69 去除均值,信息损失大
空间归一化(水平位移) 4.45 27.56 保留垂直信息有帮助
仅时间归一化 4.58 28.01 提取相对轨迹
完整GMD(时间+空间) 4.14 25.95 两者互补效果最优

SlowFast 设计消融

配置 MPJPE(cm) MPJVE(cm/s) FLOPs 参数量
40帧输入 4.36 28.12 0.33G 4.12M
80帧输入 4.11 29.27 0.65G 4.12M
80帧降采样2x 4.13 30.02 0.33G 4.12M
SlowFast融合 4.14 25.95 0.33G 4.12M

不同FoV下的手部可见性策略对比

策略 FoV=180° MPJPE FoV=120° MPJPE FoV=90° MPJPE
假设全部可见 24.75 38.99 41.24
随机遮挡(FLAG) 7.09 13.29 14.84
改进的随机遮挡 6.52 11.88 12.83
真实FoV建模 5.31 6.07 6.60

关键发现

  • 全局输入表示导致的过拟合问题非常严重:偏移原点仅5米,AvatarPoser的MPJPE从约5cm飙升至25cm+
  • 保留垂直位移信息对姿态估计至关重要(空间归一化水平vs完整的差异明显)
  • SlowFast 以相同计算量获得显著更低的速度误差MPJVE(25.95 vs 28-30 cm/s)
  • 体型估计将 MPJPE 从 6.36cm(平均体型)降至 4.79cm,穿地距离从 3.87cm 降至 2.31cm

亮点与洞察

  • 问题揭示深刻:首次系统揭示全局位置表示导致的过拟合问题,这个发现对整个领域都有借鉴价值
  • 设计朴素有效:全局运动分解策略简单优雅,仅通过坐标变换就实现了位置无关性
  • 工程价值高:600+ fps 的推理速度远超同类方法,已在 Quest 2 真机上验证,具有很强的实际部署价值
  • 全面性:同时解决了大场景泛化、手部遮挡、体型适配三个实际问题

局限与展望

  • 假设用户在同一楼层移动(编码了垂直全局位置),跨楼层需重置原点
  • 骨干网络采用简单 Transformer,更精细的模型设计(如关节级建模)可能进一步提升
  • 缺少后处理步骤(如物理约束、碰撞检测等),可进一步提高物理合理性
  • 手指姿态未建模(仅估计22个SMPL-H关节),对精细交互场景有限

相关工作与启发

  • AvatarPoser (CVPR 2022):奠定了头显三点追踪到全身姿态估计的基线框架
  • AGRoL (CVPR 2023):扩散模型方法,质量高但推理慢且依赖未来帧
  • FLAG:提出随机遮挡数据增强解决手部不可见,但未考虑空间位置关系
  • SlowFast Networks (ICCV 2019):视频识别中的双速率设计被巧妙迁移到时序信号处理

评分

  • 新颖性: ⭐⭐⭐⭐ 全局运动分解是本文最突出的贡献,首次揭示并解决了全局表示过拟合问题
  • 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多方法对比、详尽消融、真机验证,实验设计极为全面
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述系统,图文配合好
  • 价值: ⭐⭐⭐⭐⭐ 解决了MR姿态估计中的三个核心实际问题,600fps推理速度使其具有直接的工业部署价值

相关论文