跳转至

Human Interaction-Aware 3D Reconstruction from a Single Image

会议: CVPR 2026
arXiv: 2604.05436
代码: 无 (项目页: jongheean11.github.io/HUG3D_project)
领域: 3D视觉
关键词: 多人3D重建, 人体交互, 多视图扩散, 物理约束, 遮挡补全

一句话总结

提出HUG3D框架,通过透视-正交视图变换、群体-个体多视图扩散模型和物理感知几何重建,从单张图片实现交互多人的高保真纹理3D重建,在CD/P2S/NC等指标上全面超越现有方法。

研究背景与动机

  1. 领域现状: 单人3D重建已取得显著进展(SIFU/SiTH/PSHuman等),但都聚焦于单一个体,对多人交互场景束手无策。
  2. 现有痛点: 多人场景存在三大核心挑战:(1)几何复杂度和透视畸变——多人场景深度变化大,正交假设不成立;(2)缺乏交互感知——独立重建各人导致肢体穿透、不自然距离等物理不合理;(3)遮挡区域的几何和纹理缺失——人与人之间遮挡导致关键身体部位信息丢失。
  3. 核心矛盾: 现有方法将每个人独立处理,完全忽略了群体上下文和交互先验,而多人交互中的物理合理性(接触、避免穿透)需要全局信息。
  4. 本文目标: 如何从单张图片重建出多人交互场景的高保真3D纹理模型,同时保证物理合理性。
  5. 切入角度: 同时利用群体级(group-level)和个体级(instance-level)信息,通过扩散模型隐式学习交互先验,通过物理约束显式强制接触和避免穿透。
  6. 核心 idea: 融合群体/个体双层次信息的多视图扩散模型补全遮挡+基于物理的几何优化保证交互合理性。

方法详解

整体框架

HUG3D包含三个阶段:(1) Pers2Ortho模块将输入透视图像转换为标准正交多视图表示;(2) HUG-MVD扩散模型联合补全遮挡区域的几何和纹理;(3) HUG-GR物理感知几何重建+纹理融合。输入是单张RGB图像,输出是多人交互的带纹理3D网格。

关键设计

  1. 透视-正交视图变换 (Pers2Ortho):

    • 功能:消除透视畸变,将输入转为多视图扩散模型可处理的标准正交表示。
    • 核心思路:先用BUDDI估计SMPL-X网格+相机参数,再用Sapiens预测的深度/法线优化初始网格得到部分3D几何\(\mathcal{M}\)。在归一化包围盒周围放置6个正交相机(方位角0°/45°/90°/180°/270°/315°)。通过点云重投影将输入图像的RGB信息转移到各正交视图,生成partial RGB条件输入\(x_{pcd}^{(i)}\)
    • 设计动机:多视图扩散模型在透视图上训练困难(Fig.3有对比),正交表示的几何关系更简洁,且标准化的相机布局使得扩散模型更容易学习交互模式。
  2. 群体-个体多视图扩散 (HUG-MVD):

    • 功能:联合补全6个正交视图的RGB图像和法线图,同时建模群体交互和个体细节。
    • 核心思路:基于PSHuman/SD 2.1训练,输入masked RGB+SMPL-X法线(通过ControlNet),同时预测RGB和法线。关键创新在联合训练+双层推理:训练时混合单人数据(THuman2.0/CustomHumans,提供多样性)和多人数据(Hi4D,提供交互模式);推理时用instance-to-group latent composition——每一步将各个体的latent \(z_{t,inst(k)}^{(i)}\)注入群体latent \(z_{t,group}^{(i)}\)对应区域,平衡因子\(\alpha=0.8\)
    • 设计动机:单种数据不够——单人数据有多样性但无交互,多人数据有交互但身份有限。双层latent合成让群体一致性和个体细节互相增益。
  3. 物理感知几何重建 (HUG-GR):

    • 功能:优化SMPL-X网格使其在几何上匹配扩散模型预测的法线,同时满足物理约束。
    • 核心思路:总损失\(\mathcal{L}_{total} = \mathcal{L}_{normal} + \lambda_{vis}\mathcal{L}_{vis} + \lambda_{pen}\mathcal{L}_{pen}\)。法线监督分群体和个体两级。穿透损失\(\mathcal{L}_{pen}\)对接触区域的身体部位对施加最小距离约束(使用softplus平滑惩罚)。可见性损失\(\mathcal{L}_{vis}\)确保渲染的遮挡关系与GT一致。
    • 设计动机:扩散模型提供外观先验但不保证物理合理性,需要显式的穿透/接触约束。高频语义区域(手、脸)使用更细的学习率。

损失函数 / 训练策略

扩散模型训练:对RGB和法线同时做DDPM去噪目标(式3),双阶段课程——前1000步无遮挡mask,后1000步加入遮挡模拟。单A100(80GB)训练约两天,使用Adam优化器(lr=\(5\times10^{-6}\), \(\beta_1=0.9\), \(\beta_2=0.999\),batch=16,梯度累积8步)。DDPM scheduler(1000步)用于训练,DDIM(40步, \(\eta=1.0\))用于推理。HUG-GR几何优化200步,Adam(lr=0.01),\(\lambda_{group}=1.0, \lambda_{inst}=0.2, \lambda_{pen}=2.0, \lambda_{vis}=1.0\)。对手、脸等高频区域使用更精细的学习率。纹理通过多视图RGB投影融合,遮挡区域用视图感知置信度mask混合,并对侧面视角应用高保真人脸修复。

实验关键数据

主实验 (MultiHuman数据集)

方法 CD↓ P2S↓ NC↑ F-score↑ CP↑
SIFU 5.644 2.284 0.754 29.244 0.089
SiTH 9.251 3.185 0.709 21.037 0.135
PSHuman 15.579 6.088 0.617 9.749 0.027
DeepMultiCap 13.719 2.555 0.749 18.125 0.083
HUG3D 3.631 1.752 0.811 41.504 0.240

纹理质量:PSNR 16.456 (vs SIFU 15.202), SSIM 0.809, LPIPS 0.168

消融实验

配置 CD↓ Occ.Norm L2↓ Occ.PSNR↑
Group-only训练 4.564 0.157 7.423
Instance-only训练 4.645 0.156 7.726
无instance-to-group latent合成 4.646 0.159 7.916
Instance-only法线监督 4.642 0.156 7.902
Group-only法线监督 4.620 0.159 7.678
Full HUG3D 4.316 0.153 8.082

关键发现

  • HUG3D在所有几何指标上大幅领先:CD降低35.7%(vs SIFU),F-score提升41.8%。
  • 接触合理性指标CP从最好的0.135提升到0.240,说明交互建模显著改善了物理合理性。
  • 遮挡区域的法线和PSNR也明显提升,验证了扩散模型在遮挡补全上的有效性。
  • 双层训练(group+instance)比任一单独策略都好,latent composition对遮挡区域PSNR贡献最大。

亮点与洞察

  • Pers2Ortho的实用性:透视到正交变换对多人场景至关重要,直接在透视图上训练扩散模型效果很差(如图3所示导致严重形变)。这种变换思路可以推广到任何需要canonical空间的3D生成任务,是一个值得复用的通用模块。
  • 双层latent composition的推理策略:让同一个扩散模型同时做群体和个体推理,通过空间区域的latent注入实现两个层次的互补,比训练两个独立模型更高效。组级latent保证全局一致性(如遮挡关系),实例级latent保证局部细节(如手指、面部),两者通过\(\alpha=0.8\)的混合因子平衡。
  • CP指标的提出和优化:量化了重建结果中人与人的接触合理性,HUG-GR的穿透损失直接优化这一指标,HUG3D的CP (0.240) 比所有基线(最高0.135)高出78%,为后续多人交互重建提供了可靠的评估维度。
  • PCD重投影优于网格顶点着色:点云重投影保留了密集的外观细节,而网格着色通常稀疏且质量低。这个细节设计对纹理质量的贡献不可忽视。

局限与展望

  • 目前只处理两人交互场景,扩展到3人以上的可扩展性未验证——组级表示如何随人数增长是关键挑战。
  • 依赖SMPL-X的初始估计质量,特别是RoBUDDI对极端姿态和重度遮挡的鲁棒性有限,初始估计失败将导致整个pipeline级联失败。
  • Pers2Ortho中的部分3D构建可能在极端遮挡下信息不足,仅有45°和315°的重投影视图。
  • 训练数据主要来自实验室捕获的扫描数据(Hi4D、THuman2.0),对真实野外场景(复杂光照、杂乱背景)的泛化能力需要更多验证。
  • 不处理人与外部物体的遮挡(如桌子遮挡下半身),这在现实场景中非常常见。
  • HUG-GR优化需要200步迭代,加上扩散模型推理的40步去噪,单张图片的总处理时间仍然较长。

相关工作与启发

  • vs SIFU/PSHuman: 这些单人方法独立处理每个人导致穿透和不一致,HUG3D的群体感知明显优势。SIFU (CD 5.644) vs HUG3D (CD 3.631) 降低36%。
  • vs BUDDI: BUDDI只做SMPL-X级别的交互建模(粗糙几何),HUG3D扩展到完整纹理网格重建。本文的RoBUDDI是BUDDI的改进版,用于初始姿态估计。
  • vs DeepMultiCap: 多人方法中P2S最好,但NC和F-score远不如HUG3D。且DeepMultiCap设计用于多视图输入,单图设置下表现不佳。
  • vs Multiply(视频方法): 设计用于视频输入,单帧设置下同样不适用。HUG3D专为单图场景设计,填补了这一空白。
  • 对未来工作的启发: HUG3D的三阶段框架可以扩展到人-场景交互重建,将Pers2Ortho应用于场景级别的多物体重建,用交互感知的扩散先验处理人-物体遮挡。
  • 评估协议的贡献: 定义了多人重建的全面评估体系(几何+纹理+遮挡区域+接触精度),为后续研究提供了统一的benchmark。
  • 训练数据策略的启示: 结合单人数据集(提供多样性)和多人数据集(提供交互知识)的策略可以推广到其他需要组合不同数据源优势的任务。

评分

  • 新颖性: ⭐⭐⭐⭐ 第一个端到端解决单图多人纹理3D重建的完整框架,组-实例设计很有创见
  • 实验充分度: ⭐⭐⭐⭐ 定量+定性+消融+野外图像全面覆盖,CP指标新颖有用
  • 写作质量: ⭐⭐⭐⭐ 三个挑战的分析清晰,方法描述系统,图示优秀
  • 价值: ⭐⭐⭐⭐ 为多人3D重建开辟了新路径,实际应用场景广泛(AR/VR、远程呈现、数字人类)

相关论文