Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass¶

会议: CVPR 2026
arXiv: 2603.12789
代码: 项目页面
领域: 3D 视觉 / 人体-场景联合重建
关键词: 多视图人体重建, 多人场景, SMPL-X, 3D 基础模型, 尺度对齐

一句话总结¶

提出 CHROMM 统一框架，从多人多视图视频中一次性联合估计相机参数、场景点云和人体网格，无需外部模块或预处理数据，在 RICH 上 WA-MPJPE 达 53.1mm 且比优化方法快 8 倍以上。

背景与动机¶

3D 人体-场景联合重建是计算机视觉的核心问题，应用于机器人、自动驾驶和 AR/VR。现有方法存在三类局限：(1) UniSH、Human3R 等单目方法不支持多视图；(2) HSfM、HAMSt3R 等多视图方法依赖额外模块（2D 关键点检测器、跨视图重识别模块）或需要迭代优化，系统复杂度和计算成本高；(3) 基于外观的重识别方法在人穿制服等视觉相似场景中失败。核心问题是如何在不依赖外部模块和预处理数据的条件下，一体化完成多人多视图的人体和场景重建。

核心问题¶

如何构建一个统一的前馈框架，从多人多视图视频中同时重建相机、场景几何和多人人体网格，不依赖外部模块、预处理数据或迭代优化。

方法详解¶

整体框架¶

双编码器架构：Pi3X 编码器提取场景特征，Multi-HMR 编码器提取人体特征。场景特征通过 Pi3X 解码器重建点图和相机参数；人体特征通过头部检测提取人体 token，与解码后场景 token 融合后回归 SMPL-X 参数。测试时通过多视图融合和跨视图人物关联生成全局一致表示。

关键设计¶

双特征编码与后期融合: Pi3X 编码器捕获全局 3D 几何，Multi-HMR 编码器针对人体表示。关键设计决策是避免早期融合——实验证明将人体 token 与 patch token 一起送入 Pi3X 解码器会损害场景重建质量（PROX 深度估计 Abs Rel 从 0.0857 升高到 0.0865），因此采用后期融合。
深度残差平移估计: 不直接回归 SMPL 3D 平移或绝对深度，而是利用 Pi3X 点图提供的深度先验，预测相对于场景深度图的深度残差 Δd，再反投影为 3D 头部位置。消融显示该策略比直接回归平移好 89mm（WA-MPJPE: 107.5 vs 196.4）。
尺度调整模块: Pi3X 输出近似度量尺度但与 SMPL 的真实度量尺度存在差异。解决方案：计算图像中 2D 头-骨盆长度与投影 SMPL 头-骨盆长度的比值，在所有帧和人上平均得到全局尺度调整因子 r，用 s*=r·s 校正场景尺度。骨盆定位采用从粗到精策略：先用头部 token 估粗位置，再在对应 patch 中回归偏移。消融显示尺度调整将 WA-MPJPE 从 169.7 降到 102.6。
多视图融合: 将人体表示分解为视图不变量（体型 β、姿态 θ → 直接平均）和视图依赖量（旋转 R、平移 τ → 转到世界坐标系后分别用四元数平均和多视图射线三角化）。实验证明显式参数平均+三角化优于隐式 token max-pooling。
基于几何的多人关联: 替代外观匹配（ReID），通过预测的 3D 位置和规范空间姿态计算跨视图匹配代价，用匈牙利算法求解一对一匹配。代价函数是位置项 (λ=0.8) 和姿态项 (λ=0.2) 的加权和。

损失函数 / 训练策略¶

两阶段训练: Stage 1 冻结 Pi3X + Multi-HMR 编码器，训练 SMPL 解码器等新增模块 20 epoch（前 10 epoch 不启用尺度调整），用 BEDLAM 数据集，lr=5e-5
Stage 2 仅解冻骨盆检测 MLP，10 epoch，混合 3DPW+MPII+COCO 野外数据 + BEDLAM，新增 Chamfer loss 约束深度一致性
总训练时间约 2 天，4×A100
损失组成：3D 顶点/关节 + 2D 重投影 + SMPL 参数 + 检测 BCE + Chamfer

实验关键数据¶

数据集	指标	本文(单目)	本文(多视图)	Human3R	UniSH
EMDB-2	WA-MPJPE(mm)	102.6	-	112.2	118.5
EMDB-2	W-MPJPE(mm)	255.0	-	267.9	270.1
EMDB-2	RTE(%)	1.7	-	2.2	5.8
RICH	WA-MPJPE(mm)	87.5	53.1	110.0	118.1
RICH	W-MPJPE(mm)	138.3	79.0	184.9	183.2
EgoHumans	W-MPJPE(m)	-	0.51	-	-
EgoHumans	GA-MPJPE(m)	-	0.15	-	-

运行时间：单帧 3 人 4 视图场景下 CHROMM 4s vs HAMSt3R 32s vs HSfM 118s（8×+ 加速）

消融实验要点¶

尺度调整：WA-MPJPE 169.7→102.6（-39.5%）
多视图融合策略：Only Avg 69.3 → Max-Pool+Tri 63.2 → Avg+Tri 53.1
多人关联：Position alone 91.1% precision vs Pose alone 70.6%，Combined 91.3%
深度残差 vs 直接深度 vs 直接平移：107.5 vs 133.8 vs 196.4

亮点¶

首个不依赖外部模块的端到端多人多视图人体-场景联合重建框架
尺度调整模块的 head-pelvis 比率是简洁有效的工程设计
多视图融合中视图不变/依赖分解的思路比简单 pooling 更合理
基于几何的多人关联避免了外观匹配在视觉相似场景中的失败

局限性 / 可改进方向¶

严重依赖头部 token 进行人体检测，头部被严重遮挡时性能下降
未将双编码器整合为统一编码器，场景和人体的交互建模仍有提升空间
极端近景（头部占满图像）场景下表现不佳
复杂姿态和近距离人际交互场景仍是失败案例

与相关工作的对比¶

相比 Human3R（单目多人）：CHROMM 扩展到多视图且无需外部模块，EMDB-2 上 WA-MPJPE 好 9.6mm
相比 HSfM（多视图但需优化+ReID）：CHROMM 快 29 倍，EgoHumans 上 W-MPJPE 0.51m vs 1.04m
相比 HAMSt3R（前馈多视图）：CHROMM 快 8 倍，支持多人关联无需外部 ReID
相比 UniSH（需 bbox 检测器）：CHROMM 全自动，性能全面超越

启发与关联¶

Pi3X/DUSt3R 等 3D 基础模型与人体先验的融合是一个趋势，尺度对齐是核心工程问题
视图不变/依赖分解的融合策略可推广到其他多视图估计任务
基于几何的跨视图关联优于外观匹配的思路适用于工业场景（工人穿制服等）

评分¶

新颖性: ⭐⭐⭐⭐ 首个无外部依赖的多人多视图统一框架，尺度调整和几何关联有新意
实验充分度: ⭐⭐⭐⭐⭐ 4 个数据集、单目/多视图、详尽消融、运行时分析
写作质量: ⭐⭐⭐⭐ 贡献清晰，每个设计决策都有实验验证
价值: ⭐⭐⭐⭐ 实用性强，快速推理+无需预处理对实际部署有意义