PICO: Reconstructing 3D People In Contact with Objects¶

会议: CVPR 2025
arXiv: 2504.17695
代码: https://pico.is.tue.mpg.de
领域: 3D视觉
关键词: 人物交互重建, 接触估计, 3D物体检索, 人体姿态, 优化拟合

一句话总结¶

PICO 提出了一个包含数据集 (PICO-db) 和拟合方法 (PICO-fit) 的完整框架，通过建立人体与物体之间的稠密双射接触对应关系，从单张自然图像中恢复逼真的 3D 人-物交互场景，支持任意物体类别。

研究背景与动机¶

领域现状：从单张图像恢复 3D 人-物交互 (HOI) 需要推断人体姿态与形状、物体姿态与形状以及二者的空间排列。现有方法如 PHOSA 使用手工设计的按类别接触约束，CONTHO 和 HDM 使用回归方式但只能处理有限的物体类别。

现有痛点：一方面，没有统一的物体形状统计模型（不像人体有 SMPL），导致从单张图像恢复 3D 物体形状极其困难。另一方面，现有接触估计方法要么只在 2D 上推断、要么只推断身体上的 3D 接触而忽略物体、要么在合成数据上训练而无法泛化到真实图像。

核心矛盾：要在野外自然图像上进行鲁棒的 3D HOI 重建，需要同时解决物体形状的多样性和人-物接触对应关系的精确标注问题，而这两个问题互相耦合且缺乏合适的数据支撑。

本文目标：(1) 构建一个包含自然图像、人体接触和物体接触双射对应标注的数据集；(2) 开发一种基于接触引导的优化拟合方法，能够处理任意物体类别。

切入角度：作者观察到身体接触形成了连续的"patch"，可以通过 PCA 自动生成接触轴 (contact axis)，将身体接触以最少的人工标注（每个 patch 仅需 2 次点击）投射到物体上。同时利用 OpenShape 基础模型的联合潜空间实现跨类别的物体形状检索。

核心 idea：通过最小化人工参与的接触转移方法构建稠密的人-物接触对应数据集，再利用这些接触对应关系作为约束来优化 3D 人-物交互重建。

方法详解¶

整体框架¶

PICO 框架包含两个核心组件。PICO-db 是一个数据集，包含 4123 张自然图像，涵盖 44 个物体类别和 627 个物体实例，每张图像标注了人体和物体上的稠密 3D 接触对应关系。PICO-fit 是一个三阶段的渲染-比较优化方法，输入一张自然图像，输出 3D 人体网格、物体网格及其空间排列。

关键设计¶

基于 OpenShape 的物体形状检索:
- 功能：自动从数据库中检索与图像匹配的 3D 物体网格
- 核心思路：利用 OpenShape 将图像和 3D 形状嵌入同一潜空间，离线嵌入 Objaverse-LVIS 数据库的所有网格，在线时嵌入输入图像并通过余弦相似度找到最近邻。检索到的物体网格既保留了 3D 细节又对遮挡有一定鲁棒性
- 设计动机：传统方法需要预知物体类别或使用扩散模型（要求物体完全可见），而这种基于检索的方式可以扩展到任意新类别，且数据库扩大后自然提升覆盖面
最小人工参与的接触转移机制:
- 功能：将 DAMON 数据集中仅标注在人体上的接触区域投射到物体网格上，同时建立双射对应关系
- 核心思路：身体上的接触 patch 通过 PCA 自动生成接触轴（第一主成分方向），标注者只需在物体上点击 2 次（定义轴的起点和方向）即可完成转移。对于手指等非凸区域，通过计算凸包创建"蹼手指"代理网格来避免测地线追踪困难
- 设计动机：ContactEdit 方法虽然理论上可行但需要 3D 专业技能，PICO 通过自动化轴生成和简化标注将其民主化，使得可以通过 AMT 众包大规模收集数据
三阶段渲染-比较优化拟合:
- 功能：从初始估计逐步优化 3D 人体和物体的姿态、形状和空间排列
- 核心思路：阶段 1 固定人体，通过接触对应关系的 L2 损失求解物体旋转和平移 \(R_o, t_o\)；阶段 2 引入物体掩码 IoU 损失 \(\mathcal{L}_o^m\)、基于 SDF 的穿透损失 \(\mathcal{L}_p\) 和尺度损失 \(\mathcal{L}_o^s\) 优化物体与图像的对齐；阶段 3 仅优化接触肢体以运动链上从躯干到接触关节的局部姿态参数 \(\theta_C\)，配合人体掩码损失和姿态正则化
- 设计动机：避免联合优化的"鸡生蛋"问题，分阶段策略让每一步都有明确约束。只优化接触肢体链而非全身避免了深度歧义导致的畸变

损失函数 / 训练策略¶

PICO-fit 是基于优化（非学习）的方法，三阶段分别使用不同损失组合：

阶段 1：\(L_1 = \mathcal{L}_c\)，仅接触对应点距离损失
阶段 2：\(L_2 = \lambda_c \mathcal{L}_c + \lambda_p \mathcal{L}_p + \lambda_o^m \mathcal{L}_o^m + \lambda_o^s \mathcal{L}_o^s\)，接触 + 穿透 + 物体掩码 + 尺度
阶段 3：\(L_3 = \lambda_c \mathcal{L}_c + \lambda_p \mathcal{L}_p + \lambda_h^m \mathcal{L}_h^m + \lambda_{\theta_C} \mathcal{L}_{\theta_C}\)，接触 + 穿透 + 人体掩码 + 姿态正则

接触初始化使用 DECO 推断身体接触 + GPT-4V 验证减少误检，物体尺度通过 GPT-4V 初始化。

实验关键数据¶

主实验¶

方法	类型	PA-CDh↓	PA-CDo↓	PA-CDh+o↓	感知偏好率
HDM	回归	17.34	14.12	13.60	20.1% vs 79.9%
CONTHO*	回归+GT	8.16	23.26	12.81	24.7% vs 75.3%
PHOSA*	优化+GT	10.12	20.91	13.28	32.0% vs 68.0%
PICO-fit	优化	7.43	21.85	10.33	37.3% vs 62.7%
PICO-fit*	优化+GT	6.66	13.34	8.36	-

消融实验¶

阶段	PA-CDh↓	PA-CDo↓	PA-CDh+o↓
Stage 1 only	7.25	24.51	11.47
Stage 1+2	6.65	13.67	8.40
Stage 1+2+3 (完整)	6.66	13.34	8.36

关键发现¶

即使不使用 GT 接触，PICO-fit 也优于使用 GT 接触的 CONTHO 和 PHOSA（PA-CDh+o: 10.33 vs 12.81/13.28）
感知研究中 PICO-fit* 被认为比所有基线更逼真，平均偏好率 74.4%
阶段 2 对物体度量改善最大（PA-CDo: 24.51→13.67），阶段 3 带来少量整体改善
PICO-fit 首次成功处理了沙发、香蕉、飞盘等之前方法无法处理的物体类别

亮点与洞察¶

用最小人工标注（每 patch 2 次点击）建立了高质量的人-物接触双射对应，这是一个非常优雅的众包方案
基于检索而非生成的物体形状获取策略，简单有效且天然可扩展
将复杂的联合优化问题分解为三个有良好定义的子问题，每个阶段的优化变量和约束都很清晰
利用 GPT-4V 进行接触验证和尺度初始化是多模态基础模型在几何视觉中的有趣应用

局限与展望¶

依赖 DECO 进行接触检测，DECO 本身不完美（特别是脚部误检严重）
物体形状检索依赖数据库覆盖度，未见过的物体类型仍可能失败
作者计划利用 PICO-fit 自动生成伪 GT 来训练前馈接触回归器，替代当前的最近邻查找
未来方向包括探索视觉-语言模型以超越有限数据集的约束

评分¶

新颖性: 8/10 — 接触转移和双射对应的数据集构建方式新颖，三阶段优化设计合理
实验充分度: 8/10 — InterCap 跨分布评估 + AMT 感知研究 + 消融实验，但缺少效率分析
写作质量: 8/10 — 动机清晰，方法描述详细，图示丰富
价值: 8/10 — 数据集和方法都开源，为野外 HOI 重建提供了可扩展的基础