Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass¶
会议: CVPR 2026
arXiv: 2603.12789
代码: 项目页面
领域: 3D 视觉 / 人体-场景联合重建
关键词: 多视图人体重建, 多人场景, SMPL-X, 3D 基础模型, 尺度对齐
一句话总结¶
提出 CHROMM 统一框架,从多人多视图视频中一次性联合估计相机参数、场景点云和人体网格,无需外部模块或预处理数据,在 RICH 上 WA-MPJPE 达 53.1mm 且比优化方法快 8 倍以上。
背景与动机¶
3D 人体-场景联合重建是计算机视觉的核心问题,应用于机器人、自动驾驶和 AR/VR。现有方法存在三类局限:(1) UniSH、Human3R 等单目方法不支持多视图;(2) HSfM、HAMSt3R 等多视图方法依赖额外模块(2D 关键点检测器、跨视图重识别模块)或需要迭代优化,系统复杂度和计算成本高;(3) 基于外观的重识别方法在人穿制服等视觉相似场景中失败。核心问题是如何在不依赖外部模块和预处理数据的条件下,一体化完成多人多视图的人体和场景重建。
核心问题¶
如何构建一个统一的前馈框架,从多人多视图视频中同时重建相机、场景几何和多人人体网格,不依赖外部模块、预处理数据或迭代优化。
方法详解¶
整体框架¶
双编码器架构:Pi3X 编码器提取场景特征,Multi-HMR 编码器提取人体特征。场景特征通过 Pi3X 解码器重建点图和相机参数;人体特征通过头部检测提取人体 token,与解码后场景 token 融合后回归 SMPL-X 参数。测试时通过多视图融合和跨视图人物关联生成全局一致表示。
关键设计¶
- 双特征编码与后期融合: Pi3X 编码器捕获全局 3D 几何,Multi-HMR 编码器针对人体表示。关键设计决策是避免早期融合——实验证明将人体 token 与 patch token 一起送入 Pi3X 解码器会损害场景重建质量(PROX 深度估计 Abs Rel 从 0.0857 升高到 0.0865),因此采用后期融合。
- 深度残差平移估计: 不直接回归 SMPL 3D 平移或绝对深度,而是利用 Pi3X 点图提供的深度先验,预测相对于场景深度图的深度残差 Δd,再反投影为 3D 头部位置。消融显示该策略比直接回归平移好 89mm(WA-MPJPE: 107.5 vs 196.4)。
- 尺度调整模块: Pi3X 输出近似度量尺度但与 SMPL 的真实度量尺度存在差异。解决方案:计算图像中 2D 头-骨盆长度与投影 SMPL 头-骨盆长度的比值,在所有帧和人上平均得到全局尺度调整因子 r,用 s*=r·s 校正场景尺度。骨盆定位采用从粗到精策略:先用头部 token 估粗位置,再在对应 patch 中回归偏移。消融显示尺度调整将 WA-MPJPE 从 169.7 降到 102.6。
- 多视图融合: 将人体表示分解为视图不变量(体型 β、姿态 θ → 直接平均)和视图依赖量(旋转 R、平移 τ → 转到世界坐标系后分别用四元数平均和多视图射线三角化)。实验证明显式参数平均+三角化优于隐式 token max-pooling。
- 基于几何的多人关联: 替代外观匹配(ReID),通过预测的 3D 位置和规范空间姿态计算跨视图匹配代价,用匈牙利算法求解一对一匹配。代价函数是位置项 (λ=0.8) 和姿态项 (λ=0.2) 的加权和。
损失函数 / 训练策略¶
- 两阶段训练: Stage 1 冻结 Pi3X + Multi-HMR 编码器,训练 SMPL 解码器等新增模块 20 epoch(前 10 epoch 不启用尺度调整),用 BEDLAM 数据集,lr=5e-5
- Stage 2 仅解冻骨盆检测 MLP,10 epoch,混合 3DPW+MPII+COCO 野外数据 + BEDLAM,新增 Chamfer loss 约束深度一致性
- 总训练时间约 2 天,4×A100
- 损失组成:3D 顶点/关节 + 2D 重投影 + SMPL 参数 + 检测 BCE + Chamfer
实验关键数据¶
| 数据集 | 指标 | 本文(单目) | 本文(多视图) | Human3R | UniSH |
|---|---|---|---|---|---|
| EMDB-2 | WA-MPJPE(mm) | 102.6 | - | 112.2 | 118.5 |
| EMDB-2 | W-MPJPE(mm) | 255.0 | - | 267.9 | 270.1 |
| EMDB-2 | RTE(%) | 1.7 | - | 2.2 | 5.8 |
| RICH | WA-MPJPE(mm) | 87.5 | 53.1 | 110.0 | 118.1 |
| RICH | W-MPJPE(mm) | 138.3 | 79.0 | 184.9 | 183.2 |
| EgoHumans | W-MPJPE(m) | - | 0.51 | - | - |
| EgoHumans | GA-MPJPE(m) | - | 0.15 | - | - |
- 运行时间:单帧 3 人 4 视图场景下 CHROMM 4s vs HAMSt3R 32s vs HSfM 118s(8×+ 加速)
消融实验要点¶
- 尺度调整:WA-MPJPE 169.7→102.6(-39.5%)
- 多视图融合策略:Only Avg 69.3 → Max-Pool+Tri 63.2 → Avg+Tri 53.1
- 多人关联:Position alone 91.1% precision vs Pose alone 70.6%,Combined 91.3%
- 深度残差 vs 直接深度 vs 直接平移:107.5 vs 133.8 vs 196.4
亮点¶
- 首个不依赖外部模块的端到端多人多视图人体-场景联合重建框架
- 尺度调整模块的 head-pelvis 比率是简洁有效的工程设计
- 多视图融合中视图不变/依赖分解的思路比简单 pooling 更合理
- 基于几何的多人关联避免了外观匹配在视觉相似场景中的失败
局限性 / 可改进方向¶
- 严重依赖头部 token 进行人体检测,头部被严重遮挡时性能下降
- 未将双编码器整合为统一编码器,场景和人体的交互建模仍有提升空间
- 极端近景(头部占满图像)场景下表现不佳
- 复杂姿态和近距离人际交互场景仍是失败案例
与相关工作的对比¶
- 相比 Human3R(单目多人):CHROMM 扩展到多视图且无需外部模块,EMDB-2 上 WA-MPJPE 好 9.6mm
- 相比 HSfM(多视图但需优化+ReID):CHROMM 快 29 倍,EgoHumans 上 W-MPJPE 0.51m vs 1.04m
- 相比 HAMSt3R(前馈多视图):CHROMM 快 8 倍,支持多人关联无需外部 ReID
- 相比 UniSH(需 bbox 检测器):CHROMM 全自动,性能全面超越
启发与关联¶
- Pi3X/DUSt3R 等 3D 基础模型与人体先验的融合是一个趋势,尺度对齐是核心工程问题
- 视图不变/依赖分解的融合策略可推广到其他多视图估计任务
- 基于几何的跨视图关联优于外观匹配的思路适用于工业场景(工人穿制服等)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个无外部依赖的多人多视图统一框架,尺度调整和几何关联有新意
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个数据集、单目/多视图、详尽消融、运行时分析
- 写作质量: ⭐⭐⭐⭐ 贡献清晰,每个设计决策都有实验验证
- 价值: ⭐⭐⭐⭐ 实用性强,快速推理+无需预处理对实际部署有意义