跳转至

Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass

会议: CVPR 2026
arXiv: 2603.12789
代码: 项目页面
领域: 3D 视觉 / 人体-场景联合重建
关键词: 多视图人体重建, 多人场景, SMPL-X, 3D 基础模型, 尺度对齐

一句话总结

提出 CHROMM 统一框架,从多人多视图视频中一次性联合估计相机参数、场景点云和人体网格,无需外部模块或预处理数据,在 RICH 上 WA-MPJPE 达 53.1mm 且比优化方法快 8 倍以上。

背景与动机

3D 人体-场景联合重建是计算机视觉的核心问题,应用于机器人、自动驾驶和 AR/VR。现有方法存在三类局限:(1) UniSH、Human3R 等单目方法不支持多视图;(2) HSfM、HAMSt3R 等多视图方法依赖额外模块(2D 关键点检测器、跨视图重识别模块)或需要迭代优化,系统复杂度和计算成本高;(3) 基于外观的重识别方法在人穿制服等视觉相似场景中失败。核心问题是如何在不依赖外部模块和预处理数据的条件下,一体化完成多人多视图的人体和场景重建。

核心问题

如何构建一个统一的前馈框架,从多人多视图视频中同时重建相机、场景几何和多人人体网格,不依赖外部模块、预处理数据或迭代优化。

方法详解

整体框架

双编码器架构:Pi3X 编码器提取场景特征,Multi-HMR 编码器提取人体特征。场景特征通过 Pi3X 解码器重建点图和相机参数;人体特征通过头部检测提取人体 token,与解码后场景 token 融合后回归 SMPL-X 参数。测试时通过多视图融合和跨视图人物关联生成全局一致表示。

关键设计

  1. 双特征编码与后期融合: Pi3X 编码器捕获全局 3D 几何,Multi-HMR 编码器针对人体表示。关键设计决策是避免早期融合——实验证明将人体 token 与 patch token 一起送入 Pi3X 解码器会损害场景重建质量(PROX 深度估计 Abs Rel 从 0.0857 升高到 0.0865),因此采用后期融合。
  2. 深度残差平移估计: 不直接回归 SMPL 3D 平移或绝对深度,而是利用 Pi3X 点图提供的深度先验,预测相对于场景深度图的深度残差 Δd,再反投影为 3D 头部位置。消融显示该策略比直接回归平移好 89mm(WA-MPJPE: 107.5 vs 196.4)。
  3. 尺度调整模块: Pi3X 输出近似度量尺度但与 SMPL 的真实度量尺度存在差异。解决方案:计算图像中 2D 头-骨盆长度与投影 SMPL 头-骨盆长度的比值,在所有帧和人上平均得到全局尺度调整因子 r,用 s*=r·s 校正场景尺度。骨盆定位采用从粗到精策略:先用头部 token 估粗位置,再在对应 patch 中回归偏移。消融显示尺度调整将 WA-MPJPE 从 169.7 降到 102.6。
  4. 多视图融合: 将人体表示分解为视图不变量(体型 β、姿态 θ → 直接平均)和视图依赖量(旋转 R、平移 τ → 转到世界坐标系后分别用四元数平均和多视图射线三角化)。实验证明显式参数平均+三角化优于隐式 token max-pooling。
  5. 基于几何的多人关联: 替代外观匹配(ReID),通过预测的 3D 位置和规范空间姿态计算跨视图匹配代价,用匈牙利算法求解一对一匹配。代价函数是位置项 (λ=0.8) 和姿态项 (λ=0.2) 的加权和。

损失函数 / 训练策略

  • 两阶段训练: Stage 1 冻结 Pi3X + Multi-HMR 编码器,训练 SMPL 解码器等新增模块 20 epoch(前 10 epoch 不启用尺度调整),用 BEDLAM 数据集,lr=5e-5
  • Stage 2 仅解冻骨盆检测 MLP,10 epoch,混合 3DPW+MPII+COCO 野外数据 + BEDLAM,新增 Chamfer loss 约束深度一致性
  • 总训练时间约 2 天,4×A100
  • 损失组成:3D 顶点/关节 + 2D 重投影 + SMPL 参数 + 检测 BCE + Chamfer

实验关键数据

数据集 指标 本文(单目) 本文(多视图) Human3R UniSH
EMDB-2 WA-MPJPE(mm) 102.6 - 112.2 118.5
EMDB-2 W-MPJPE(mm) 255.0 - 267.9 270.1
EMDB-2 RTE(%) 1.7 - 2.2 5.8
RICH WA-MPJPE(mm) 87.5 53.1 110.0 118.1
RICH W-MPJPE(mm) 138.3 79.0 184.9 183.2
EgoHumans W-MPJPE(m) - 0.51 - -
EgoHumans GA-MPJPE(m) - 0.15 - -
  • 运行时间:单帧 3 人 4 视图场景下 CHROMM 4s vs HAMSt3R 32s vs HSfM 118s(8×+ 加速)

消融实验要点

  • 尺度调整:WA-MPJPE 169.7→102.6(-39.5%)
  • 多视图融合策略:Only Avg 69.3 → Max-Pool+Tri 63.2 → Avg+Tri 53.1
  • 多人关联:Position alone 91.1% precision vs Pose alone 70.6%,Combined 91.3%
  • 深度残差 vs 直接深度 vs 直接平移:107.5 vs 133.8 vs 196.4

亮点

  • 首个不依赖外部模块的端到端多人多视图人体-场景联合重建框架
  • 尺度调整模块的 head-pelvis 比率是简洁有效的工程设计
  • 多视图融合中视图不变/依赖分解的思路比简单 pooling 更合理
  • 基于几何的多人关联避免了外观匹配在视觉相似场景中的失败

局限性 / 可改进方向

  • 严重依赖头部 token 进行人体检测,头部被严重遮挡时性能下降
  • 未将双编码器整合为统一编码器,场景和人体的交互建模仍有提升空间
  • 极端近景(头部占满图像)场景下表现不佳
  • 复杂姿态和近距离人际交互场景仍是失败案例

与相关工作的对比

  • 相比 Human3R(单目多人):CHROMM 扩展到多视图且无需外部模块,EMDB-2 上 WA-MPJPE 好 9.6mm
  • 相比 HSfM(多视图但需优化+ReID):CHROMM 快 29 倍,EgoHumans 上 W-MPJPE 0.51m vs 1.04m
  • 相比 HAMSt3R(前馈多视图):CHROMM 快 8 倍,支持多人关联无需外部 ReID
  • 相比 UniSH(需 bbox 检测器):CHROMM 全自动,性能全面超越

启发与关联

  • Pi3X/DUSt3R 等 3D 基础模型与人体先验的融合是一个趋势,尺度对齐是核心工程问题
  • 视图不变/依赖分解的融合策略可推广到其他多视图估计任务
  • 基于几何的跨视图关联优于外观匹配的思路适用于工业场景(工人穿制服等)

评分

  • 新颖性: ⭐⭐⭐⭐ 首个无外部依赖的多人多视图统一框架,尺度调整和几何关联有新意
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 个数据集、单目/多视图、详尽消融、运行时分析
  • 写作质量: ⭐⭐⭐⭐ 贡献清晰,每个设计决策都有实验验证
  • 价值: ⭐⭐⭐⭐ 实用性强,快速推理+无需预处理对实际部署有意义