EgoPoser: Robust Real-Time Egocentric Pose Estimation from Sparse and Intermittent Observations Everywhere¶

会议: ECCV 2024
arXiv: 2308.06493
代码: https://github.com/siplab-gt/EgoPoser (有)
领域: 视频理解 / 人体姿态估计
关键词: 自我中心姿态估计, 混合现实, 稀疏追踪, 全局运动分解, SlowFast

一句话总结¶

提出 EgoPoser，仅从头显设备的头部和手部稀疏且间歇性追踪信号中，鲁棒地估计全身姿态，通过全局运动分解、真实视野建模、SlowFast时序融合和体型感知优化四大核心设计，在大规模真实场景中实现SOTA性能，推理速度超600fps。

研究背景与动机¶

当前混合现实（MR）系统（如 Meta Quest、Apple Vision Pro、HoloLens）的追踪信号仅来自头部和双手的三点稀疏输入，从这些信号恢复全身姿态是一个严重欠定的问题。现有方法存在三大核心痛点：

全局位置过拟合：先前方法（AvatarPoser、AGRoL、AvatarJLM）直接使用世界坐标系下的全局位姿作为网络输入，导致模型严重过拟合于训练数据中靠近原点的动作。当用户在大场景中移动时（仅偏移几米），预测精度急剧下降。

假设手部始终可见：现有方法假设手部追踪信号连续可用，但实际头显的内向外追踪相机有有限视野（FoV），手部频繁离开视野导致追踪中断。

忽略体型差异：现有方法假设统一的平均体型骨架，无法适应不同用户的身体尺寸差异，产生浮空和穿地等运动伪影。

核心 idea：通过全局运动分解实现位置无关的姿态预测，通过真实 FoV 建模处理间歇性手部信号，通过体型感知优化适应不同用户。

方法详解¶

整体框架¶

EgoPoser 接收头显设备提供的头部和手部的全局位置 \(\mathbf{p}\) 和朝向 \(\boldsymbol{\Theta}\)（共3个追踪点），经过真实FoV建模→全局运动分解→SlowFast特征融合→Transformer编码器→人体运动解码器，输出全局根朝向 \(\theta_{\text{global}}\)、局部关节旋转 \(\theta_{\text{local}}\) 和体型参数 \(\beta\)。输入窗口为最近80帧（经 SlowFast 融合为40帧），最终通过 SMPL 模型和前向运动学生成全身22个关节的位置。

关键设计¶

真实视野(FoV)建模：不同于先前工作的随机帧丢弃，EgoPoser 根据头部姿态与手部相对位置的空间关系，真实模拟头显摄像头的视锥体。水平 FoV 角度 \(\alpha_h\) 和垂直 FoV 角度 \(\alpha_v\) 决定手部在头部坐标系中的可见性。当手部位于 FoV 之外时，将对应输入特征置零，同时保留时间连续性信息。这种建模捕获了手部进出视野的真实时序依赖关系。
全局运动分解（GMD）：结合全局和局部表示的优点，提出位置无关的姿态估计策略，包含两个核心操作：
- 时间归一化（TN）：从每个关节在时间窗口内的轨迹中减去第一帧的平移，提取相对全局轨迹：\(\mathbf{p}_{\text{TN}}^{t_i,j} = \mathbf{p}_W^{t_i,j} - \mathbf{p}_W^{t_0,j}\)
- 空间归一化（SN）：仅归一化手部相对于头部的水平平移，保留全局垂直平移作为编码运动先验的关键特征：\(\mathbf{p}_{\text{SN},h}^{t_i,\text{hand}} = \mathbf{p}_{W,h}^{t_i,\text{hand}} - \mathbf{p}_{W,h}^{t_i,\text{head}}\)
- 设计动机：纯全局表示导致位置过拟合，纯局部表示（如头部为参考系）则丢失信息且对头部旋转敏感，GMD 通过保留垂直位移信息巧妙平衡两者。
SlowFast 特征融合模块：受视频识别中 SlowFast 网络启发，给定输入窗口 \(\tau\) 帧，FAST 分支取最近 \(\tau/2\) 帧保持高时间分辨率，SLOW 分支以步长2采样整个窗口得到 \(\tau/2\) 帧捕获长程上下文，两者拼接后送入 Transformer。输入序列长度缩短为原来的一半，在不增加计算开销（Transformer 自注意力复杂度 \(O(n^2)\)）的前提下覆盖两倍的时间跨度。
体型感知姿态优化：提出两种方案解决体型差异问题：
- 方案1：数据增强+T-pose 校准——用真实体型参数增强训练数据，测试时通过身高和臂长比例因子缩放输出
- 方案2（免校准）：联合估计姿态和体型参数 \(\beta\)，通过可微分 SMPL 模型的前向运动学间接优化 \(\beta\)：\(\mathcal{L}_{\text{pos}} = \|\text{FK}(\theta, \beta) - \text{FK}(\theta_{GT}, \beta_{GT})\|_1\)，并对 \(\beta\) 施加 L1 正则化鼓励稀疏性

损失函数 / 训练策略¶

总损失函数为四项 L1 损失的加权和：

\[\mathcal{L}_{\text{total}} = \lambda_{\text{ori}} \mathcal{L}_{\text{ori}} + \lambda_{\text{rot}} \mathcal{L}_{\text{rot}} + \lambda_{\text{pos}} \mathcal{L}_{\text{pos}} + \lambda_{\beta} \|\beta\|_1\]

其中权重分别为 \(\lambda_{\text{ori}}=0.05\), \(\lambda_{\text{rot}}=1\), \(\lambda_{\text{pos}}=1\), \(\lambda_{\beta}=0.01\)。使用 Adam 优化器，batch size 256，初始学习率 \(1\times10^{-4}\)，每 \(2\times10^4\) 迭代衰减 0.5 倍，在单张 3090 GPU 上训练。

实验关键数据¶

主实验¶

在大规模真实场景 HPS 数据集上与SOTA方法对比（训练集均为AMASS的CMU/BMLrub/HDM05子集）：

场景	指标	EgoPoser	AvatarPoser	AGRoL	AvatarJLM
BIB_EG_Tour	MPJPE(cm)	9.55	22.53	28.95	41.27
BIB_EG_Tour	MPJVE(cm/s)	49.39	60.25	166.34	82.92
MPI_EG	MPJPE(cm)	11.05	16.54	19.41	12.91
Working_Standing	MPJPE(cm)	8.70	19.08	17.67	17.26
Go_Around	MPJPE(cm)	6.90	19.50	14.16	11.57

消融实验¶

全局运动分解消融（AMASS 数据集）：

配置	MPJPE(cm)	MPJVE(cm/s)	说明
全特征均值归一化	6.25	42.69	去除均值，信息损失大
空间归一化（水平位移）	4.45	27.56	保留垂直信息有帮助
仅时间归一化	4.58	28.01	提取相对轨迹
完整GMD（时间+空间）	4.14	25.95	两者互补效果最优

SlowFast 设计消融：

配置	MPJPE(cm)	MPJVE(cm/s)	FLOPs	参数量
40帧输入	4.36	28.12	0.33G	4.12M
80帧输入	4.11	29.27	0.65G	4.12M
80帧降采样2x	4.13	30.02	0.33G	4.12M
SlowFast融合	4.14	25.95	0.33G	4.12M

不同FoV下的手部可见性策略对比：

策略	FoV=180° MPJPE	FoV=120° MPJPE	FoV=90° MPJPE
假设全部可见	24.75	38.99	41.24
随机遮挡(FLAG)	7.09	13.29	14.84
改进的随机遮挡	6.52	11.88	12.83
真实FoV建模	5.31	6.07	6.60

关键发现¶

全局输入表示导致的过拟合问题非常严重：偏移原点仅5米，AvatarPoser的MPJPE从约5cm飙升至25cm+
保留垂直位移信息对姿态估计至关重要（空间归一化水平vs完整的差异明显）
SlowFast 以相同计算量获得显著更低的速度误差MPJVE（25.95 vs 28-30 cm/s）
体型估计将 MPJPE 从 6.36cm（平均体型）降至 4.79cm，穿地距离从 3.87cm 降至 2.31cm

亮点与洞察¶

问题揭示深刻：首次系统揭示全局位置表示导致的过拟合问题，这个发现对整个领域都有借鉴价值
设计朴素有效：全局运动分解策略简单优雅，仅通过坐标变换就实现了位置无关性
工程价值高：600+ fps 的推理速度远超同类方法，已在 Quest 2 真机上验证，具有很强的实际部署价值
全面性：同时解决了大场景泛化、手部遮挡、体型适配三个实际问题

局限与展望¶

假设用户在同一楼层移动（编码了垂直全局位置），跨楼层需重置原点
骨干网络采用简单 Transformer，更精细的模型设计（如关节级建模）可能进一步提升
缺少后处理步骤（如物理约束、碰撞检测等），可进一步提高物理合理性
手指姿态未建模（仅估计22个SMPL-H关节），对精细交互场景有限

评分¶

新颖性: ⭐⭐⭐⭐ 全局运动分解是本文最突出的贡献，首次揭示并解决了全局表示过拟合问题
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多方法对比、详尽消融、真机验证，实验设计极为全面
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述系统，图文配合好
价值: ⭐⭐⭐⭐⭐ 解决了MR姿态估计中的三个核心实际问题，600fps推理速度使其具有直接的工业部署价值