Reconstructing People, Places, and Cameras¶
会议: CVPR 2025
arXiv: 2412.17806
代码: https://muelea.github.io/hsfm
领域: 3D视觉
关键词: 多视角重建, 人体姿态估计, 结构光运动, 度量尺度恢复, 联合优化
一句话总结¶
HSfM 将人体网格估计与传统 SfM 框架统一,通过联合优化人体、场景点云和相机参数,在无标定的稀疏多视角图像上实现度量尺度的世界坐标重建,人体定位误差从 3.59m 降至 0.50m。
研究背景与动机¶
领域现状:3D 人体重建和场景重建(SfM)是两个高速发展的方向,但长期独立演进。DUSt3R 等数据驱动 SfM 方法能估计稠密场景点云和相机参数,HMR2 等方法能从单张图像估计人体网格,二者各擅胜场。
现有痛点:场景重建方法(DUSt3R、MASt3R)不重建人体,且缺少度量尺度信息——输出的相机位姿和点云只有一个任意的 up-to-scale 的相对关系。人体重建方法(HMR2、UnCaliPose)则缺乏场景上下文,无法将人体放置在与环境一致的世界坐标中。
核心矛盾:SfM 重建天然缺失绝对尺度,而人体估计天然缺失全局场景锚定。两个问题如果分开解决,都无法得到完整的"人-场景-相机"统一表示。
本文目标:从稀疏、无标定的多视角图像出发,同时恢复多个人体网格、场景点云和相机参数,且所有元素处于同一度量世界坐标系中。
切入角度:作者发现人体网格估计方法隐含了度量尺度信息(训练数据中人体的统计身高),可以用来约束场景尺度;同时 2D 关键点检测提供了跨视角的可靠对应,可以为 BA(束调整)提供强约束。
核心 idea:将人体统计模型作为尺度先验嵌入 SfM 框架,通过基于人体关键点的 BA 和场景全局对齐联合优化,实现人-场景-相机的协同重建。
方法详解¶
整体框架¶
HSfM 的输入是一组同步拍摄的多视角图像(无标定、已知人物跨视角对应)。首先利用预训练模型(DUSt3R 提供场景点云和相机初始化,HMR2 提供 3D 人体网格初始化,ViTPose 提供 2D 关键点)分别获取初始估计,然后通过一个两阶段联合优化将所有元素对齐到统一的度量世界坐标系中。输出包括:(1) 所有人的 SMPL-X 网格参数,(2) 每个视角的场景点云,(3) 每个相机的内外参数和度量尺度因子 \(\alpha\)。
关键设计¶
-
世界初始化(度量尺度恢复):
- 功能:将不同网络输出的人体和场景估计对齐到同一坐标系
- 核心思路:利用人体朝向一致性约束估计相机旋转 \(\hat{R}^c\),通过相似三角形关系和预测焦距估计人体在世界坐标中的位置 \(\gamma\),最后通过最小二乘求解尺度因子 \(\hat{\alpha}\),使 SfM 预测的相机位置与人体推导的相机位置对齐。关键公式为 \(\hat{T}^c = \tilde{\gamma}^{c_1} - (\hat{R}^c)^\top \tilde{\gamma}^c\)
- 设计动机:SfM 重建是 up-to-scale 的,如果 \(\alpha\) 初始值不合理(场景太小导致相机在人体内部),优化容易陷入局部最优。通过人体身高先验提供合理初始化
-
基于人体关键点的束调整(Bundle Adjustment):
- 功能:通过 2D 关键点重投影误差联合优化人体参数和相机参数
- 核心思路:定义重投影损失 \(L_J^{ch} = \frac{1}{b_{2D}^{ch}} \| c_{2D}^{ch}(J_{2D}^{ch} - K^c(R^c J_{3D}^h + \alpha t^c)) \|_2\),其中用检测框高度归一化、用关键点置信度加权。同时加入体型正则化 \(L_\beta^h = \|\beta^h\|_2\) 防止过拟合。BA 过程同时更新 \(\{\alpha, \gamma, \beta, \phi, \theta, R, t, K\}\)
- 设计动机:2D 人体关键点是跨视角的天然对应点,比传统特征匹配在宽基线、人物密集场景更鲁棒,且 3D 人体网格提供了可靠的初始 3D 结构
-
全局场景对齐优化:
- 功能:将多视角点云融合到统一世界坐标系
- 核心思路:沿用 DUSt3R 的全局对齐损失,取跨视角点云对 \(X^{c_i,c_j}\),通过变换矩阵 \(P^{c_i,c_j \to w}\) 和置信度 \(Q_i^{c_i,c_j}\) 加权对齐到世界坐标。与 DUSt3R 不同,这里不需要尺度正则化,因为人体已经提供了度量约束
- 设计动机:仅靠人体关键点优化相机会过拟合关键点而忽视场景结构一致性,加入场景对齐可以锚定相机位姿,形成互补的优化反馈回路
损失函数 / 训练策略¶
总损失为 \(\min L_{\text{Humans}} + \lambda L_{\text{Places}}\),采用两阶段优化策略:第一阶段先优化 \(\{\alpha, \gamma, \beta\}\)(\(\lambda=0\)),稳定尺度和人体位置;第二阶段设置 \(\lambda\) 并优化所有参数 \(\{\gamma, \beta, \phi, \theta, R, t, K, D\}\),实现人-场景-相机联合精调。
实验关键数据¶
主实验¶
| 数据集 | 方法 | W-MPJPE↓ | GA-MPJPE↓ | RRA@15↑ | s-CCA@15↑ |
|---|---|---|---|---|---|
| EgoHumans | UnCaliPose | 3.51m | 0.67m | 0.39 | 0.44 |
| EgoHumans | MASt3R | - | - | 0.74 | 0.86 |
| EgoHumans | HSfM | 1.04m | 0.21m | 0.89 | 0.91 |
| EgoExo4D | UnCaliPose | 3.59m | - | 0.31 | 0.37 |
| EgoExo4D | MASt3R | - | - | 0.90 | 0.81 |
| EgoExo4D | HSfM | 0.50m | - | 0.89 | 0.84 |
消融实验¶
| 配置 | W-MPJPE↓ | GA-MPJPE↓ | RRA@15↑ | CCA@15↑ |
|---|---|---|---|---|
| HSfM (init.) | 4.28m | 0.51m | 0.79 | 0.38 |
| M1: 无人体梯度到相机 | 3.94m | 0.57m | 0.79 | 0.40 |
| M2: 无场景损失 | 1.29m | 0.24m | 0.73 | 0.24 |
| M3: HSfM (完整) | 1.04m | 0.21m | 0.89 | 0.46 |
关键发现¶
- 联合优化是关键:去掉场景损失(M2)后人体定位尚可但相机精度大幅下降(CCA@15 从 0.46 降至 0.24),说明人体和场景对相机估计有互补贡献
- 人数效应:将优化中使用的人数从 1 增加到 4,W-MPJPE 从 1.69m 降至 1.28m,RRA@15 从 0.82 升至 0.90,证实更多的人体对应点能有效增强 BA
- 在 EgoExo4D 上改进幅度小于 EgoHumans,因为 EgoExo4D 通常只有 1 个人,尺度约束较弱
亮点与洞察¶
- 人体作为尺度锚:利用人体统计模型的先验身高信息恢复度量尺度,这是一个非常自然且优雅的思路,避免了传统方法中需要已知物体尺寸或 GPS 等额外信息
- 无需接触约束的接地:优化后人体自然站在地面上,而无需显式的"脚接触地面"约束,这说明场景和人体的联合优化已经隐式地解决了接地问题
- 跨视角 BA 的人体关键点:将人体关键点作为 SfM 的特征对应,在传统特征匹配失效的宽基线场景中提供了鲁棒的替代方案
局限与展望¶
- 依赖已知的跨视角人物对应(re-identification),实际场景中这需要额外的 ReID 模块
- 室内遮挡严重时 2D 关键点检测质量下降,影响优化效果
- 场景重建质量仍有限(地面不平等问题),可以考虑引入更强的几何先验或结合 NeRF/3DGS 进行精细重建
- 目前只处理单帧静态场景,扩展到视频序列可以利用时序一致性进一步提升精度
相关工作与启发¶
- vs UnCaliPose: 同样使用人体关键点做 SfM,但 UnCaliPose 仅优化人体和相机、不重建场景,且需要 GT 骨长。HSfM 通过加入场景优化实现了更好的相机估计
- vs DUSt3R/MASt3R: 这些方法做稠密场景重建和相机估计但不处理人体。HSfM 利用人体提供尺度约束和额外对应点,在相机指标上也超越了它们
- 这种"以人为锚"的思路可以推广到其他需要度量尺度的场景重建任务,如自动驾驶中用车辆/行人的统计尺寸恢复尺度
评分¶
- 新颖性: ⭐⭐⭐⭐ 将人体先验引入 SfM 的思路自然但整合方式巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 两个大规模数据集、全面指标、详细消融和人数分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,公式表述规范
- 价值: ⭐⭐⭐⭐ 统一了人体和场景重建,对理解真实世界的人-环境交互有重要意义
相关论文¶
- [CVPR 2025] PICO: Reconstructing 3D People In Contact with Objects
- [CVPR 2025] Reconstructing Humans with a Biomechanically Accurate Skeleton
- [CVPR 2025] Reconstructing Animals and the Wild
- [CVPR 2025] Reconstructing In-the-Wild Open-Vocabulary Human-Object Interactions
- [CVPR 2025] Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning