InteractVLM: 3D Interaction Reasoning from 2D Foundational Models¶
会议: CVPR 2025
arXiv: 2504.05303
代码: https://interactvlm.is.tue.mpg.de
领域: 3D视觉
关键词: 人物交互重建, 3D接触估计, 视觉语言模型, 多视图定位, 语义接触
一句话总结¶
InteractVLM 利用大规模视觉语言模型(VLM)的广泛视觉知识,通过"渲染-定位-提升"(Render-Localize-Lift)框架将2D基础模型的推理能力迁移到3D空间,实现了从单张野外图像估计人体和物体3D接触点,并用于人物交互联合重建,在接触估计任务上F1分数提升20.6%。
研究背景与动机¶
-
领域现状:3D人物交互(HOI)重建对机器人、混合现实等应用至关重要。现有方法要么估计3D人体,要么估计3D物体,但很少将两者联合起来。知道人与物体之间的接触可以显著改善联合重建。
-
现有痛点:
- 现有接触估计方法(如DECO)依赖昂贵的动捕系统或人工标注的3D接触数据,规模化受限
- 现有方法将接触视为简单的二值分类,未考虑多物体交互的语义关系
- 野外图像缺乏配对的ground-truth 3D接触标注
-
核心矛盾:3D接触估计需要3D空间理解,但大规模标注的3D接触数据稀缺;而拥有广泛视觉知识的VLM只能在2D空间推理。
-
本文目标
- 如何利用VLM的知识来弥补3D接触标注的不足
- 如何将VLM的2D推理能力转化为3D接触定位能力
- 提出"语义人体接触"新任务:给定物体标签,预测与该物体相关的身体接触点
-
切入角度:VLM虽然只在2D推理,但蕴含着丰富的人与物体交互常识知识,可以通过少量3D数据微调来解锁。
-
核心 idea:通过多视图渲染将3D问题降维到2D,让VLM引导接触定位,再通过反投影提升回3D空间。
方法详解¶
InteractVLM 的核心思路是:先让 VLM "看懂"交互图像并产生接触推理 token,然后通过一个创新的多视图定位模块(MV-Loc)在3D几何表面上精确标记接触区域。整个系统将VLM的2D语义理解与3D几何感知巧妙结合。
整体框架¶
输入为一张野外RGB图像,输出为人体和物体表面上的3D接触点。系统包含两大组件:
1. VLM推理模块:接收图像和文本提示,产生包含 <HCON> 和 <OCON> 接触 token 的文本输出,并生成引导嵌入
2. MV-Loc多视图定位模块:通过"渲染-定位-提升"(RLL)三步框架,将VLM的2D推理转化为3D接触预测
关键设计¶
-
VLM交互推理模块 (Ψ):
- 功能:从RGB图像中理解人物交互场景,产生接触推理信息
- 核心思路:在LLaVA的词表中添加两个特殊token
<HCON>(人体接触)和<OCON>(物体接触),通过LoRA微调使VLM学会产生包含这些token的文本。提取VLM最后一层中这些token对应的嵌入,经投影层 \(\Gamma\) 得到特征嵌入 \(E^H\) 和 \(E^O\),作为后续定位的语义指导信号。训练时使用token预测的交叉熵损失 \(\mathcal{L}_{token}\) - 设计动机:VLM经过互联网规模数据训练,拥有关于人与物体交互的广泛常识知识,通过少量3D接触数据微调即可激活这些知识用于接触推理
-
Render-Localize-Lift (RLL) 框架:
- 功能:将3D接触定位问题转化为2D分割问题,再映射回3D
- 核心思路:三步走——(1) Render: 将SMPL+H人体网格(星形规范姿态)和物体网格(通过OpenShape从Objaverse检索)从J个固定视角渲染为2D图像,使用法线着色增强跨视图对应性;(2) Localize: 将渲染图像送入SAM的编码器和解码器,在VLM嵌入指导下预测2D接触掩码;(3) Lift: 利用预计算的2D-3D像素-顶点映射将2D接触提升为3D接触点
- 设计动机:直接在3D空间定位接触对现有基础模型来说不可行,通过降维到2D可以复用SAM等强大的2D分割模型
-
FeatLift 特征提升网络 (Φ):
- 功能:将VLM产生的2D特征嵌入转换为3D感知特征,确保多视图一致性
- 核心思路:设计一个提升网络,输入为2D嵌入 \(E^{H,O}\) 和相机参数 \(K\),输出为3D感知嵌入 \(E^{H,O}_{3D} = \Phi(E^{H,O}, K)\)。网络包含空间理解网络(两层128维FC+ReLU)和视图特定的256维变换。通过将相机参数编码进嵌入,使不同视图的接触预测保持一致
- 设计动机:简单地将相机参数拼接到多视图渲染不足以保证3D一致性,需要显式地让特征"感知"3D空间关系
损失函数 / 训练策略¶
总损失由多个部分组成: - Token预测损失 \(\mathcal{L}_{token}\):交叉熵损失,监督VLM生成正确的接触token - 2D掩码损失:focal-weighted BCE + Dice loss,用于2D接触掩码的监督 - 人体3D接触损失 \(\mathcal{L}^H_C\):focal loss + L1稀疏正则,鼓励精确定位同时避免假阳性 - 物体3D接触损失 \(\mathcal{L}^O_C\):Dice loss + MSE loss
训练使用LoRA(rank 8)微调VLM,图像编码器冻结,解码器单独训练。DeepSpeed + bfloat16混合精度,4张A100训练30个epoch。
实验关键数据¶
主实验¶
二值人体接触估计 (DAMON数据集)
| 方法 | F1 (%) | Precision (%) | Recall (%) | Geodesic (cm) |
|---|---|---|---|---|
| POSA^PIXIE | 31.0 | 42.0 | 34.0 | 33.00 |
| BSTRO | 46.0 | 51.0 | 53.0 | 38.06 |
| DECO | 55.0 | 65.0 | 57.0 | 21.32 |
| InteractVLM | 75.6 | 75.2 | 76.0 | 2.89 |
F1提升20.6%,测地距离从21.32cm大幅降低到2.89cm。
物体affordance预测 (PIAD数据集) 也取得了SOTA表现。
消融实验¶
| 配置 | 说明 |
|---|---|
| 不同数据量训练 | 仅用40%的DAMON数据即可超过DECO全量训练的性能 |
| 语义接触 vs 二值接触 | 语义接触能区分多物体交互,传统方法无法做到 |
| 使用VQA辅助数据 | GPT4o生成的VQA数据有助于训练 |
| 与LEMON对比 | 虽然LEMON使用配对数据,InteractVLM用非配对数据仍达到可比性能 |
关键发现¶
- VLM的常识知识是性能大幅提升的关键因素,即使与DECO在相同数据上训练,仅凭VLM的知识就能带来20%的F1提升
- 测地距离从21cm降到2.89cm,说明接触定位精度有质的飞跃
- 方法可以扩展到80个人体接触类别和32个物体affordance类别,远超先前方法的21类限制
- 数据效率极高:40%训练数据即超过完全监督的DECO
亮点与洞察¶
- Render-Localize-Lift 框架:将3D问题优雅地转化为2D问题,核心巧妙之处在于利用已知的3D几何消除了2D到3D反投影的深度歧义,这个范式可以迁移到任何需要在3D表面上做细粒度标注的任务
- 语义接触任务:从"有没有接触"到"和哪个物体接触"的升级,这个问题定义本身就很有价值,可以迁移到机器人抓取规划等场景
- VLM知识蒸馏:用少量3D数据微调VLM来获取3D理解能力的思路,可以推广到其他3D任务,避免大规模3D标注
局限与展望¶
- 物体3D形状通过OpenShape从数据库检索获得,对于数据库中不存在的新奇物体可能失效
- 人体使用规范化的星形姿态,在极端姿态下渲染可能出现自遮挡问题
- 仅在有限的数据集(DAMON, PIAD)上验证,更大规模的真实场景评估尚缺
- 优化式的3D HOI重建依赖接触质量,错误接触会传播到重建结果
相关工作与启发¶
- vs DECO: DECO直接从图像回归顶点接触概率,而InteractVLM通过VLM引导的多视图渲染实现3D定位,利用了更强的先验知识,F1提升20.6%
- vs LEMON: LEMON需要配对的人-物体几何数据训练,覆盖21类;InteractVLM使用非配对数据,覆盖80+类,且可比性能
- vs PARIS3D: 都用VLM+SAM,但PARIS3D对物体做3D分割,InteractVLM处理人物交互场景且引入FeatLift确保多视图一致性
评分¶
- 新颖性: ⭐⭐⭐⭐ 将VLM知识迁移到3D接触估计的思路新颖,RLL框架设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 在多个数据集和任务上验证,消融充分,但缺少更大规模的野外评估
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图示丰富,方法描述详尽
- 价值: ⭐⭐⭐⭐ RLL框架具有通用性,语义接触任务定义有启发性
相关论文¶
- [CVPR 2025] Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning
- [CVPR 2025] Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
- [ICCV 2025] Repurposing 2D Diffusion Models with Gaussian Atlas for 3D Generation
- [CVPR 2025] 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning
- [CVPR 2025] DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers