Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning¶
会议: CVPR 2025
arXiv: 2507.02565
代码: https://www.buzhenhuang.com/works/CloseApp.html
领域: 3D视觉 / 人体重建
关键词: 人体交互重建, 3D高斯喷射, 社会距离学先验, 双分支优化, 近距离交互
一句话总结¶
本文提出一个双分支优化框架,通过结合人体外观(3D Gaussian Splatting)约束、社会距离学(proxemics)扩散先验和物理约束,从单目野外视频中重建紧密人体交互的准确 3D 姿态、自然交互关系和合理身体接触,在 Hi4D 和 3DPW 上达到 SOTA。
研究背景与动机¶
领域现状:3D 人体姿态估计近年来取得了巨大进展,但现有方法在处理紧密人体交互时仍然力不从心。单人方法只关注姿态精度和图模型对齐,多人方法关注穿模和空间分布合理性,都忽略了紧密交互中至关重要的身体接触和社会距离学关系。少数专门针对近距离交互的方法(如 BUDDI、CloseInt)要么依赖检测到的 2D 人体语义,要么依赖室内高质量交互数据。
现有痛点:紧密人体交互场景存在严重的视觉模糊性和人间遮挡。即使最先进的大型基础模型(如 SAM、ViTPose++)也无法准确区分交互中两个人的语义——关键点检测器给出不可靠的 2D 关键点,分割模型无法正确分离两个紧密接触的人。基于回归的方法(如 CloseInt)依赖室内场景数据训练,泛化到野外场景时性能大幅下降。
核心矛盾:深度模糊性和视觉模糊性使得从 2D 观测推断紧密交互的 3D 配置极为困难。传统的优化方法容易陷入局部最优,而前馈回归方法缺乏对野外场景的泛化能力。
本文目标:设计一个能在多样化野外环境中工作的框架,同时重建准确的人体姿态、自然的交互空间关系和合理的物理接触。
切入角度:作者发现人体外观可以提供一种直接的线索来解决视觉模糊性和遮挡问题。通过建模人体外观并渲染到图像平面,可以直接利用原始 RGB 图像推断深度顺序关系和图模型对齐,无需依赖不可靠的 2D 语义检测。
核心 idea:同时重建人体运动和外观,用外观渲染约束替代不可靠的 2D 语义约束,配合扩散模型学习的交互先验,实现鲁棒的紧密交互重建。
方法详解¶
整体框架¶
给定一段包含两人紧密交互的单目野外视频,框架分为两个阶段。首先训练一个扩散模型学习人体交互行为和姿态先验知识。然后将训练好的扩散模型和两个可优化张量整合到双分支优化框架中:运动分支(Motion Branch)利用扩散模型生成和微调交互运动,外观分支(Appearance Branch)通过 U-Net 解码可优化张量为高斯 UV 图来重建人体外观。两个分支联合优化,受到外观、2D 关键点、穿模惩罚和平滑约束的共同约束。
关键设计¶
-
社会距离学先验(Proxemic Prior):
- 功能:提供姿态和交互先验知识,缓解深度模糊性和局部最优问题
- 核心思路:采用扩散模型从噪声中迭代去噪生成干净的双人运动。模型以 2D 关键点和图像特征为条件,使用 Transformer block 处理特征,两个人的特征通过 cross-attention 共享信息。训练时使用两种 mask 策略:(1)随机遮挡部分帧来学习时序依赖;(2)完全遮挡一个人的输入来强制模型从对方生成反应动作。损失函数包含重投影损失、SMPL 参数损失、3D 关节位置损失、速度损失和交互距离损失 \(\mathcal{L}_{int} = \||J^a_{3D} - J^b_{3D}| - |\hat{J}^a_{3D} - \hat{J}^b_{3D}|\|^2\)
- 设计动机:与现有交互先验(如 BUDDI)不同,本模型同时接收 2D 观测和利用时序信息推断 3D 交互,通过 mask 策略对遮挡具有鲁棒性。在优化阶段微调网络参数(而非修改运动本身)可以更好地控制输出并利用预训练知识
-
外观分支(Appearance Branch, 3D Gaussian Splatting):
- 功能:通过重建人体外观并渲染到图像,提供密集的 RGB 约束来解决深度顺序和对齐问题
- 核心思路:设计两组可优化张量作为潜码,通过 U-Net 解码为高斯 UV 图(14 通道:offset \(\mu\)、color \(c\)、opacity \(\sigma\)、rotation \(q\)、scale \(s\)、identity \(d\))。高斯通过 UV 坐标映射到 3D 人体表面,再通过 splatting 渲染到 2D 图像。关键创新是同时渲染两个人的高斯,利用 identity 通道区分两个个体。外观约束通过 L1 + SSIM + LPIPS 的组合损失与原始图像对比
- 设计动机:与传统方法依赖 2D 关键点和分割掩码不同,直接使用 RGB 图像作为约束更可靠——紧密交互中 2D 语义检测本身就不准确。同时渲染两人可以自然地反映遮挡关系,无需对每个人单独进行语义解析
-
联合运动-外观优化:
- 功能:同时优化运动和外观参数,利用多种约束找到全局最优解
- 核心思路:总目标函数为 \(\mathcal{L} = \mathcal{L}_{app} + \mathcal{L}_{reproj} + \mathcal{L}_{pen} + \mathcal{L}_{smooth} + \mathcal{L}_{reg}\)。穿模约束使用可微分 3D 距离场检测碰撞三角形并惩罚穿透深度。平滑约束鼓励相邻帧关节位移最小化。正则化约束限制优化后的参数不要偏离初始预测太远。使用 Adam 优化器,运动分支学习率 0.00002,外观分支学习率 0.003,处理 128 帧视频约需 3-5 分钟
- 设计动机:单独优化运动可能得到正确的姿态但错误的深度顺序;单独优化外观则缺乏物理合理性。双分支联合优化让外观约束指导深度排序,物理约束保证合理接触
损失函数 / 训练策略¶
扩散模型在 Inter-X、InterHuman 等大规模交互数据集上预训练。优化阶段使用自动追踪(AutoTrackAnything)获取边界框和整体掩码(注意只需要两人整体掩码,无需分别分割),VitPose 获取 2D 关键点。整个流程分为:预训练先验→初始预测→双分支联合优化。
实验关键数据¶
主实验¶
| 数据集 | 指标 | 本文 | CloseInt | BUDDI | GroupRec |
|---|---|---|---|---|---|
| Hi4D | MPJPE↓ | 59.1 | 63.1 | 96.8 | 82.4 |
| Hi4D | PA-MPJPE↓ | 44.3 | 47.5 | 70.6 | 51.6 |
| Hi4D | MPVPE↓ | 72.0 | 76.4 | 116.0 | 88.6 |
| Hi4D | Inter↓ | 80.2 | 81.4 | 102.6 | 98.8 |
| 3DPW | MPJPE↓ | 64.5 | 70.6 | 83.6 | 73.3 |
| 3DPW | PA-MPJPE↓ | 45.6 | 51.4 | 53.6 | 48.7 |
消融实验¶
| 配置 | MPJPE↓ | PA-MPJPE↓ | MPVPE↓ | Inter↓ | A-PD↓ |
|---|---|---|---|---|---|
| Initial Prediction | 65.05 | 48.54 | 78.35 | 86.20 | 1.16 |
| w/o Appearance | 60.68 | 45.86 | 73.52 | 81.01 | 0.83 |
| w/o Proxemics | 61.52 | 47.13 | 74.84 | 87.13 | 0.85 |
| w/o Physics | 57.01 | 42.67 | 69.57 | 78.50 | 1.30 |
| Full Model | 59.06 | 44.29 | 71.99 | 80.18 | 0.81 |
关键发现¶
- 外观约束对深度顺序至关重要:去掉外观分支后虽然姿态仍可接受,但深度排序容易出错。即使粗糙的纹理也足以约束运动的深度关系
- 物理约束与精度存在 trade-off:去掉物理约束后 MPJPE 反而最低(57.01),但穿模深度 A-PD 从 0.81 增到 1.30。说明物理约束牺牲了部分关节精度换取物理合理性
- WildCHI 数据集可以改善回归方法:用本文方法生成的伪标注训练 CloseInt 后,其在 Hi4D 和 3DPW 上的性能均有提升
- 相比优化直接 SMPL 参数,微调网络参数更鲁棒:利用预训练权重中的先验知识可有效缓解深度模糊性
亮点与洞察¶
- 外观作为约束信号的思路很有启发性:在紧密交互中 2D 语义不可靠时,直接用 RGB 图像做约束是一种降维打击——同时渲染两人的高斯消除了对个体分割的依赖
- 扩散模型作为可微调的优化先验:不是用扩散模型做前馈推理,而是将其嵌入优化循环中微调参数,这种"先验即可优化组件"的范式值得借鉴
- 同时重建运动和外观的互益关系:运动提供外观的几何支撑,外观反过来约束运动的深度和对齐,形成良性循环。这一思路可迁移到其他需要多信号联合优化的重建任务
局限与展望¶
- 在光照变化或人体被大面积遮挡时无法重建高质量完整纹理,可通过引入光照嵌入或大型视觉基础模型改善
- 目前仅支持两人交互,缺乏多人交互数据集训练先验
- 输入视频需包含一些少接触/无接触的帧来约束外观
- 处理 128 帧需要 3-5 分钟,距离实时应用还有差距
相关工作与启发¶
- vs BUDDI: BUDDI 也是优化框架但仅依赖 2D 关键点拟合,缺乏时序信息和外观约束。本文引入外观渲染约束和时序扩散先验,在视觉模糊场景中更鲁棒
- vs CloseInt: CloseInt 是回归方法,依赖室内数据训练泛化能力差。本文的优化框架可在多样环境中工作,且生成的伪标注还能反哺 CloseInt 的训练
- vs BEV/GroupRec: 这些多人方法考虑人群空间分布但不处理紧密接触,无法重建准确的交互关系
评分¶
- 新颖性: ⭐⭐⭐⭐ 将高斯喷射和扩散模型创造性地结合进人体交互重建的优化框架中
- 实验充分度: ⭐⭐⭐⭐ 多个数据集验证,消融分析有见地,提供了 WildCHI 数据集
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述到位,图示直观
- 价值: ⭐⭐⭐⭐ 为紧密人体交互重建提供了一个实用的解决方案,WildCHI 数据集对社区有价值
相关论文¶
- [CVPR 2025] InteractVLM: 3D Interaction Reasoning from 2D Foundational Models
- [CVPR 2025] Reconstructing In-the-Wild Open-Vocabulary Human-Object Interactions
- [CVPR 2025] Reconstructing Animals and the Wild
- [CVPR 2025] Reconstructing People, Places, and Cameras
- [CVPR 2025] Reconstructing Humans with a Biomechanically Accurate Skeleton