Estimating Body and Hand Motion in an Ego-sensed World¶
会议: CVPR 2025
arXiv: 2410.03665
代码: 有(项目主页提供代码和模型)
领域: 3D视觉
关键词: 自中心人体运动估计, 扩散模型, SLAM位姿, 不变性表示, 手部估计
一句话总结¶
EgoAllo 提出了一种从头戴设备的自中心 SLAM 位姿和图像估计佩戴者全身姿态、身高和手部参数的系统,通过设计满足空间和时间不变性的头部运动条件化参数,将人体运动估计误差降低高达 18%,并利用运动学约束将手部世界坐标误差降低 40%。
研究背景与动机¶
-
领域现状:从外部视角估计人体 3D 姿态的方法已经非常成熟(HMR、SMPL 回归、优化等),但从头戴设备的自中心视角估计佩戴者自身运动面临独特挑战——身体大部分区域不在相机视野内。现有自中心方法(EgoEgo、BoDiffusion、AvatarPoser)使用扩散模型或 VAE 作为运动先验。
-
现有痛点:(a)现有方法对头部位姿的条件化表示各不相同,缺乏系统设计原则;(b)大多数方法使用固定的"平均"人体形状,忽略身高变化对场景接地的重要性;(c)手部运动通常单独处理,缺乏与身体运动的联合推理。
-
核心矛盾:自中心人体运动估计的根本困难在于可观测性极低——佩戴者身体几乎不在视野中,需要强先验来消除歧义。先验的好坏直接取决于条件化表示的设计,但现有方法的条件化表示要么不满足空间不变性(绝对位置受全局坐标影响),要么不满足时间不变性(序列规范化引入跨时间步依赖)。
-
本文目标 设计一个统一的系统,从自中心 SLAM 位姿和图像中同时估计身体姿态、身高和手部参数,关键在于找到同时满足空间和时间不变性的条件化表示。
-
切入角度:从不变性原则出发——全局地面平面变换不应影响局部运动(空间不变性),同一运动在时间窗口内的不同位置应有相同表示(时间不变性)。
-
核心 idea:通过逐时间步的局部规范化(将头部位姿投影到地面平面并对齐前方方向),构造同时满足空间和时间不变性的条件化参数,显著提升扩散运动先验的学习效果。
方法详解¶
整体框架¶
EgoAllo 接收两种输入:头戴设备的 SLAM 位姿序列(SE(3) 变换)和自中心视频。系统输出 SMPL-H 模型参数,包括局部关节旋转 \(\Theta^t\)、身体形状 \(\beta\)(编码身高)和二值接触预测 \(\psi_j^t\)。整体分为三个阶段:(1)将 SLAM 位姿通过不变性参数化函数 \(g(\cdot)\) 转换为条件向量;(2)条件化扩散模型采样局部身体参数;(3)通过全局对齐放置到世界坐标系,并使用 LM 优化器引导手部估计。
关键设计¶
-
不变性条件化参数(Invariant Conditioning):
- 功能:将原始 SLAM 位姿转换为适合扩散模型学习的条件表示。
- 核心思路:每个时间步 \(t\) 的条件 \(\vec{c}^t\) 由两部分组成:(a)相邻帧的相对变换 \(\Delta T_{\text{cpf}}^{t-1,t}\)(在局部帧中表示平移,天然空间不变);(b)当前 CPF 帧与每个时间步独立计算的规范帧之间的变换。规范帧通过将 CPF 原点投影到地面平面(编码高度),并将 y 轴对齐到 CPF 前方方向来构造。关键区别是 EgoEgo 只对每个序列计算一个规范帧,而 EgoAllo 对每个时间步独立计算,从而同时满足空间不变性(地面平面变换无影响)和时间不变性(无跨序列依赖)。
- 设计动机:EgoEgo 的序列规范化引入首帧依赖导致时间不变性违反;AvatarPoser/BoDiffusion 的绝对位置+全局差分不满足空间不变性。本文的不变性条件化是唯一同时满足两个性质的方案。
-
局部身体表示(Local Body Representation):
- 功能:使扩散模型输出与全局坐标系无关。
- 核心思路:扩散模型只采样局部参数——关节旋转 \(\Theta^t \in \mathbb{R}^{51 \times 3 \times 3}\)、身体形状 \(\beta \in \mathbb{R}^{16}\)(包含身高信息)和接触预测 \(\psi_j^t\)(21 个关节的地面接触概率)。不包含全局根变换。身体形状在所有时间步一致(同一人身高不变)。全局位姿通过 \(T_{\text{world,root}}^t = T_{\text{world,cpf}}^t \cdot T_{\text{cpf,root}}^{(\Theta^t, \beta^t)}\) 从 SLAM 位姿精确计算。
- 设计动机:(a)局部参数天然满足空间不变性,不受全局坐标选择影响;(b)身体形状编码身高,对度量尺度下的场景接地至关重要;(c)接触预测可用于减少脚部滑动。
-
LM 引导采样(Guidance via Levenberg-Marquardt):
- 功能:将手部视觉观测融入扩散采样过程。
- 核心思路:使用 HaMeR 从自中心图像检测手部,得到 3D 关键点 \(\hat{p}_{\text{camera},j}^t\)。在扩散去噪的每一步,对预测的关节旋转 \(\Theta\) 应用 LM 优化器,最小化三个损失的组合:\(\mathcal{E}_{\text{guidance}} = \mathcal{E}_{\text{hands}} + \mathcal{E}_{\text{skate}} + \mathcal{E}_{\text{prior}}\)。手部损失包括 3D 手部参数匹配和相机重投影损失;滑动损失利用接触预测惩罚接触关节的运动;先验损失限制关节旋转不偏离去噪器预测太多。
- 设计动机:扩散模型提供运动先验但缺乏视觉观测的约束;单帧手部估计准确但缺乏时序平滑和身体运动学约束。LM 引导将二者结合,运动学和时序约束可将手部世界坐标误差降低 40%。
损失函数 / 训练策略¶
扩散模型训练使用标准去噪目标:\(\min_\theta \mathbb{E}[w_n \|\mu_\theta(\vec{x}_n, n, \vec{c}) - \vec{x}_0\|^2]\),采用 DDIM 采样。在 AMASS 数据集上训练,训练时从 SMPL-H blend skin mesh 的左右瞳孔顶点位置合成设备位姿。序列长度 32-128。测试时通过 MultiDiffusion 风格的窗口融合处理长序列。
实验关键数据¶
主实验(AMASS 测试集,条件化对比)¶
| 条件化方法 | 序列长度 | 空间/时间不变 | MPJPE↓ | 提升% | PA-MPJPE↓ |
|---|---|---|---|---|---|
| EgoAllo (Eq.4) | 32 | ✓/✓ | 129.8 | — | 109.8 |
| 绝对+局部相对 | 32 | 部分/✓ | 133.0 | 2.4% | 113.6 |
| 绝对+全局差分 | 32 | ✗/✓ | 136.2 | 4.9% | 118.3 |
| 序列规范化 [EgoEgo] | 32 | ✓/✗ | 153.1 | 17.9% | 128.7 |
| 绝对位姿 | 32 | ✗/✓ | 159.9 | 23.2% | 141.0 |
手部估计(EgoExo4D 数据集)¶
| 方法 | 手部世界坐标误差 |
|---|---|
| 单帧 HaMeR 估计 | 基线 |
| EgoAllo 身体引导 | 降低 40%+ |
关键发现¶
- 不变性条件化的提升非常显著——相比 EgoEgo 的序列规范化,MPJPE 降低 17.9%(序列长度 32),证明时间不变性对扩散模型的学习至关重要。
- 空间不变性和时间不变性都很重要,但时间不变性的影响更大(违反时间不变性的下降 17.9% vs 违反空间不变性的 4.9%)。
- 长序列(128步)比短序列效果更好(MPJPE 119.7 vs 129.8),说明更多时序上下文有助于运动估计。
- 身体约束对手部的提升出人意料地大(40%),说明运动学和时序一致性约束的重要性。
亮点与洞察¶
- 从不变性原则出发系统设计条件化表示是本文最有启发性的贡献——不是通过消融"碰巧"找到好的表示,而是先定义两个清晰的不变性公理,再推导出满足它们的唯一方案。这种"原则驱动"的设计方法论可以迁移到任何条件化生成任务。
- 逐时间步局部规范化简单但非常有效——只需将 CPF 帧投影到地面并对齐前方方向,就能同时编码高度信息和满足双不变性。这个操作计算代价几乎为零。
- LM 引导将独立的手部估计和身体先验融合,用运动学约束弥补了单帧估计的不稳定性,降低 40% 误差。这种"先验+观测引导"的框架可以迁移到其他身体部位或物体交互估计。
局限与展望¶
- 训练数据仍依赖 AMASS 的合成设备位姿,与真实头戴设备的分布可能有差距。
- 只使用 SMPL-H 模型,无法处理穿着衣物的情况。
- 手部引导需要手部在自中心视野中可见,无法估计完全不可见的手部。
- SLAM 位姿的毫米级精度假设在某些设备上可能不成立。
- 可以考虑将场景几何(SLAM 3D 点云)也作为条件,提供环境交互约束。
相关工作与启发¶
- vs EgoEgo: EgoEgo 使用序列规范化实现空间不变但违反时间不变,MPJPE 差 17.9%。EgoAllo 的逐步局部规范化同时满足两个不变性。
- vs AvatarPoser/BoDiffusion: 它们使用绝对位置+全局差分,不满足空间不变性。且依赖 VR 控制器输入,而 EgoAllo 仅用 SLAM 位姿。
- vs 非学习方法: 物理模拟方法可以保证物理合理性但缺乏数据驱动的运动多样性;EgoAllo 用扩散先验+物理引导取得了更好的平衡。
评分¶
- 新颖性: ⭐⭐⭐⭐ 不变性条件化的推导过程严谨优雅,但整体框架(扩散模型+引导)并不新
- 实验充分度: ⭐⭐⭐⭐⭐ AMASS/RICH/ADT/EgoExo4D 四个数据集,系统的条件化消融对比
- 写作质量: ⭐⭐⭐⭐⭐ 不变性公理的提出和推导逻辑清晰,数学表述严谨
- 价值: ⭐⭐⭐⭐ 不变性表示的设计原则有广泛迁移价值,对自中心感知领域有重要贡献
相关论文¶
- [CVPR 2025] HaWoR: World-Space Hand Motion Reconstruction from Egocentric Videos
- [CVPR 2025] Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera
- [ICCV 2025] Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image
- [CVPR 2025] MAC-Ego3D: Multi-Agent Gaussian Consensus for Real-Time Collaborative Ego-Motion and Photorealistic 3D Reconstruction
- [ICCV 2025] Easi3R: Estimating Disentangled Motion from DUSt3R Without Training