跳转至

Estimating Body and Hand Motion in an Ego-sensed World

会议: CVPR 2025
arXiv: 2410.03665
代码: 有(项目主页提供代码和模型)
领域: 3D视觉
关键词: 自中心人体运动估计, 扩散模型, SLAM位姿, 不变性表示, 手部估计

一句话总结

EgoAllo 提出了一种从头戴设备的自中心 SLAM 位姿和图像估计佩戴者全身姿态、身高和手部参数的系统,通过设计满足空间和时间不变性的头部运动条件化参数,将人体运动估计误差降低高达 18%,并利用运动学约束将手部世界坐标误差降低 40%。

研究背景与动机

  1. 领域现状:从外部视角估计人体 3D 姿态的方法已经非常成熟(HMR、SMPL 回归、优化等),但从头戴设备的自中心视角估计佩戴者自身运动面临独特挑战——身体大部分区域不在相机视野内。现有自中心方法(EgoEgo、BoDiffusion、AvatarPoser)使用扩散模型或 VAE 作为运动先验。

  2. 现有痛点:(a)现有方法对头部位姿的条件化表示各不相同,缺乏系统设计原则;(b)大多数方法使用固定的"平均"人体形状,忽略身高变化对场景接地的重要性;(c)手部运动通常单独处理,缺乏与身体运动的联合推理。

  3. 核心矛盾:自中心人体运动估计的根本困难在于可观测性极低——佩戴者身体几乎不在视野中,需要强先验来消除歧义。先验的好坏直接取决于条件化表示的设计,但现有方法的条件化表示要么不满足空间不变性(绝对位置受全局坐标影响),要么不满足时间不变性(序列规范化引入跨时间步依赖)。

  4. 本文目标 设计一个统一的系统,从自中心 SLAM 位姿和图像中同时估计身体姿态、身高和手部参数,关键在于找到同时满足空间和时间不变性的条件化表示。

  5. 切入角度:从不变性原则出发——全局地面平面变换不应影响局部运动(空间不变性),同一运动在时间窗口内的不同位置应有相同表示(时间不变性)。

  6. 核心 idea:通过逐时间步的局部规范化(将头部位姿投影到地面平面并对齐前方方向),构造同时满足空间和时间不变性的条件化参数,显著提升扩散运动先验的学习效果。

方法详解

整体框架

EgoAllo 接收两种输入:头戴设备的 SLAM 位姿序列(SE(3) 变换)和自中心视频。系统输出 SMPL-H 模型参数,包括局部关节旋转 \(\Theta^t\)、身体形状 \(\beta\)(编码身高)和二值接触预测 \(\psi_j^t\)。整体分为三个阶段:(1)将 SLAM 位姿通过不变性参数化函数 \(g(\cdot)\) 转换为条件向量;(2)条件化扩散模型采样局部身体参数;(3)通过全局对齐放置到世界坐标系,并使用 LM 优化器引导手部估计。

关键设计

  1. 不变性条件化参数(Invariant Conditioning):

    • 功能:将原始 SLAM 位姿转换为适合扩散模型学习的条件表示。
    • 核心思路:每个时间步 \(t\) 的条件 \(\vec{c}^t\) 由两部分组成:(a)相邻帧的相对变换 \(\Delta T_{\text{cpf}}^{t-1,t}\)(在局部帧中表示平移,天然空间不变);(b)当前 CPF 帧与每个时间步独立计算的规范帧之间的变换。规范帧通过将 CPF 原点投影到地面平面(编码高度),并将 y 轴对齐到 CPF 前方方向来构造。关键区别是 EgoEgo 只对每个序列计算一个规范帧,而 EgoAllo 对每个时间步独立计算,从而同时满足空间不变性(地面平面变换无影响)和时间不变性(无跨序列依赖)。
    • 设计动机:EgoEgo 的序列规范化引入首帧依赖导致时间不变性违反;AvatarPoser/BoDiffusion 的绝对位置+全局差分不满足空间不变性。本文的不变性条件化是唯一同时满足两个性质的方案。
  2. 局部身体表示(Local Body Representation):

    • 功能:使扩散模型输出与全局坐标系无关。
    • 核心思路:扩散模型只采样局部参数——关节旋转 \(\Theta^t \in \mathbb{R}^{51 \times 3 \times 3}\)、身体形状 \(\beta \in \mathbb{R}^{16}\)(包含身高信息)和接触预测 \(\psi_j^t\)(21 个关节的地面接触概率)。不包含全局根变换。身体形状在所有时间步一致(同一人身高不变)。全局位姿通过 \(T_{\text{world,root}}^t = T_{\text{world,cpf}}^t \cdot T_{\text{cpf,root}}^{(\Theta^t, \beta^t)}\) 从 SLAM 位姿精确计算。
    • 设计动机:(a)局部参数天然满足空间不变性,不受全局坐标选择影响;(b)身体形状编码身高,对度量尺度下的场景接地至关重要;(c)接触预测可用于减少脚部滑动。
  3. LM 引导采样(Guidance via Levenberg-Marquardt):

    • 功能:将手部视觉观测融入扩散采样过程。
    • 核心思路:使用 HaMeR 从自中心图像检测手部,得到 3D 关键点 \(\hat{p}_{\text{camera},j}^t\)。在扩散去噪的每一步,对预测的关节旋转 \(\Theta\) 应用 LM 优化器,最小化三个损失的组合:\(\mathcal{E}_{\text{guidance}} = \mathcal{E}_{\text{hands}} + \mathcal{E}_{\text{skate}} + \mathcal{E}_{\text{prior}}\)。手部损失包括 3D 手部参数匹配和相机重投影损失;滑动损失利用接触预测惩罚接触关节的运动;先验损失限制关节旋转不偏离去噪器预测太多。
    • 设计动机:扩散模型提供运动先验但缺乏视觉观测的约束;单帧手部估计准确但缺乏时序平滑和身体运动学约束。LM 引导将二者结合,运动学和时序约束可将手部世界坐标误差降低 40%。

损失函数 / 训练策略

扩散模型训练使用标准去噪目标:\(\min_\theta \mathbb{E}[w_n \|\mu_\theta(\vec{x}_n, n, \vec{c}) - \vec{x}_0\|^2]\),采用 DDIM 采样。在 AMASS 数据集上训练,训练时从 SMPL-H blend skin mesh 的左右瞳孔顶点位置合成设备位姿。序列长度 32-128。测试时通过 MultiDiffusion 风格的窗口融合处理长序列。

实验关键数据

主实验(AMASS 测试集,条件化对比)

条件化方法 序列长度 空间/时间不变 MPJPE↓ 提升% PA-MPJPE↓
EgoAllo (Eq.4) 32 ✓/✓ 129.8 109.8
绝对+局部相对 32 部分/✓ 133.0 2.4% 113.6
绝对+全局差分 32 ✗/✓ 136.2 4.9% 118.3
序列规范化 [EgoEgo] 32 ✓/✗ 153.1 17.9% 128.7
绝对位姿 32 ✗/✓ 159.9 23.2% 141.0

手部估计(EgoExo4D 数据集)

方法 手部世界坐标误差
单帧 HaMeR 估计 基线
EgoAllo 身体引导 降低 40%+

关键发现

  • 不变性条件化的提升非常显著——相比 EgoEgo 的序列规范化,MPJPE 降低 17.9%(序列长度 32),证明时间不变性对扩散模型的学习至关重要。
  • 空间不变性和时间不变性都很重要,但时间不变性的影响更大(违反时间不变性的下降 17.9% vs 违反空间不变性的 4.9%)。
  • 长序列(128步)比短序列效果更好(MPJPE 119.7 vs 129.8),说明更多时序上下文有助于运动估计。
  • 身体约束对手部的提升出人意料地大(40%),说明运动学和时序一致性约束的重要性。

亮点与洞察

  • 从不变性原则出发系统设计条件化表示是本文最有启发性的贡献——不是通过消融"碰巧"找到好的表示,而是先定义两个清晰的不变性公理,再推导出满足它们的唯一方案。这种"原则驱动"的设计方法论可以迁移到任何条件化生成任务。
  • 逐时间步局部规范化简单但非常有效——只需将 CPF 帧投影到地面并对齐前方方向,就能同时编码高度信息和满足双不变性。这个操作计算代价几乎为零。
  • LM 引导将独立的手部估计和身体先验融合,用运动学约束弥补了单帧估计的不稳定性,降低 40% 误差。这种"先验+观测引导"的框架可以迁移到其他身体部位或物体交互估计。

局限与展望

  • 训练数据仍依赖 AMASS 的合成设备位姿,与真实头戴设备的分布可能有差距。
  • 只使用 SMPL-H 模型,无法处理穿着衣物的情况。
  • 手部引导需要手部在自中心视野中可见,无法估计完全不可见的手部。
  • SLAM 位姿的毫米级精度假设在某些设备上可能不成立。
  • 可以考虑将场景几何(SLAM 3D 点云)也作为条件,提供环境交互约束。

相关工作与启发

  • vs EgoEgo: EgoEgo 使用序列规范化实现空间不变但违反时间不变,MPJPE 差 17.9%。EgoAllo 的逐步局部规范化同时满足两个不变性。
  • vs AvatarPoser/BoDiffusion: 它们使用绝对位置+全局差分,不满足空间不变性。且依赖 VR 控制器输入,而 EgoAllo 仅用 SLAM 位姿。
  • vs 非学习方法: 物理模拟方法可以保证物理合理性但缺乏数据驱动的运动多样性;EgoAllo 用扩散先验+物理引导取得了更好的平衡。

评分

  • 新颖性: ⭐⭐⭐⭐ 不变性条件化的推导过程严谨优雅,但整体框架(扩散模型+引导)并不新
  • 实验充分度: ⭐⭐⭐⭐⭐ AMASS/RICH/ADT/EgoExo4D 四个数据集,系统的条件化消融对比
  • 写作质量: ⭐⭐⭐⭐⭐ 不变性公理的提出和推导逻辑清晰,数学表述严谨
  • 价值: ⭐⭐⭐⭐ 不变性表示的设计原则有广泛迁移价值,对自中心感知领域有重要贡献

相关论文