跳转至

InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

会议: CVPR 2025
arXiv: 2504.05303
代码: https://interactvlm.is.tue.mpg.de
领域: 3D视觉
关键词: 人物交互重建, 3D接触估计, 视觉语言模型, 多视图定位, 语义接触

一句话总结

InteractVLM 利用大规模视觉语言模型(VLM)的广泛视觉知识,通过"渲染-定位-提升"(Render-Localize-Lift)框架将2D基础模型的推理能力迁移到3D空间,实现了从单张野外图像估计人体和物体3D接触点,并用于人物交互联合重建,在接触估计任务上F1分数提升20.6%。

研究背景与动机

  1. 领域现状:3D人物交互(HOI)重建对机器人、混合现实等应用至关重要。现有方法要么估计3D人体,要么估计3D物体,但很少将两者联合起来。知道人与物体之间的接触可以显著改善联合重建。

  2. 现有痛点

    • 现有接触估计方法(如DECO)依赖昂贵的动捕系统或人工标注的3D接触数据,规模化受限
    • 现有方法将接触视为简单的二值分类,未考虑多物体交互的语义关系
    • 野外图像缺乏配对的ground-truth 3D接触标注
  3. 核心矛盾:3D接触估计需要3D空间理解,但大规模标注的3D接触数据稀缺;而拥有广泛视觉知识的VLM只能在2D空间推理。

  4. 本文目标

    • 如何利用VLM的知识来弥补3D接触标注的不足
    • 如何将VLM的2D推理能力转化为3D接触定位能力
    • 提出"语义人体接触"新任务:给定物体标签,预测与该物体相关的身体接触点
  5. 切入角度:VLM虽然只在2D推理,但蕴含着丰富的人与物体交互常识知识,可以通过少量3D数据微调来解锁。

  6. 核心 idea:通过多视图渲染将3D问题降维到2D,让VLM引导接触定位,再通过反投影提升回3D空间。

方法详解

InteractVLM 的核心思路是:先让 VLM "看懂"交互图像并产生接触推理 token,然后通过一个创新的多视图定位模块(MV-Loc)在3D几何表面上精确标记接触区域。整个系统将VLM的2D语义理解与3D几何感知巧妙结合。

整体框架

输入为一张野外RGB图像,输出为人体和物体表面上的3D接触点。系统包含两大组件: 1. VLM推理模块:接收图像和文本提示,产生包含 <HCON><OCON> 接触 token 的文本输出,并生成引导嵌入 2. MV-Loc多视图定位模块:通过"渲染-定位-提升"(RLL)三步框架,将VLM的2D推理转化为3D接触预测

关键设计

  1. VLM交互推理模块 (Ψ):

    • 功能:从RGB图像中理解人物交互场景,产生接触推理信息
    • 核心思路:在LLaVA的词表中添加两个特殊token <HCON>(人体接触)和 <OCON>(物体接触),通过LoRA微调使VLM学会产生包含这些token的文本。提取VLM最后一层中这些token对应的嵌入,经投影层 \(\Gamma\) 得到特征嵌入 \(E^H\)\(E^O\),作为后续定位的语义指导信号。训练时使用token预测的交叉熵损失 \(\mathcal{L}_{token}\)
    • 设计动机:VLM经过互联网规模数据训练,拥有关于人与物体交互的广泛常识知识,通过少量3D接触数据微调即可激活这些知识用于接触推理
  2. Render-Localize-Lift (RLL) 框架:

    • 功能:将3D接触定位问题转化为2D分割问题,再映射回3D
    • 核心思路:三步走——(1) Render: 将SMPL+H人体网格(星形规范姿态)和物体网格(通过OpenShape从Objaverse检索)从J个固定视角渲染为2D图像,使用法线着色增强跨视图对应性;(2) Localize: 将渲染图像送入SAM的编码器和解码器,在VLM嵌入指导下预测2D接触掩码;(3) Lift: 利用预计算的2D-3D像素-顶点映射将2D接触提升为3D接触点
    • 设计动机:直接在3D空间定位接触对现有基础模型来说不可行,通过降维到2D可以复用SAM等强大的2D分割模型
  3. FeatLift 特征提升网络 (Φ):

    • 功能:将VLM产生的2D特征嵌入转换为3D感知特征,确保多视图一致性
    • 核心思路:设计一个提升网络,输入为2D嵌入 \(E^{H,O}\) 和相机参数 \(K\),输出为3D感知嵌入 \(E^{H,O}_{3D} = \Phi(E^{H,O}, K)\)。网络包含空间理解网络(两层128维FC+ReLU)和视图特定的256维变换。通过将相机参数编码进嵌入,使不同视图的接触预测保持一致
    • 设计动机:简单地将相机参数拼接到多视图渲染不足以保证3D一致性,需要显式地让特征"感知"3D空间关系

损失函数 / 训练策略

总损失由多个部分组成: - Token预测损失 \(\mathcal{L}_{token}\):交叉熵损失,监督VLM生成正确的接触token - 2D掩码损失:focal-weighted BCE + Dice loss,用于2D接触掩码的监督 - 人体3D接触损失 \(\mathcal{L}^H_C\):focal loss + L1稀疏正则,鼓励精确定位同时避免假阳性 - 物体3D接触损失 \(\mathcal{L}^O_C\):Dice loss + MSE loss

训练使用LoRA(rank 8)微调VLM,图像编码器冻结,解码器单独训练。DeepSpeed + bfloat16混合精度,4张A100训练30个epoch。

实验关键数据

主实验

二值人体接触估计 (DAMON数据集)

方法 F1 (%) Precision (%) Recall (%) Geodesic (cm)
POSA^PIXIE 31.0 42.0 34.0 33.00
BSTRO 46.0 51.0 53.0 38.06
DECO 55.0 65.0 57.0 21.32
InteractVLM 75.6 75.2 76.0 2.89

F1提升20.6%,测地距离从21.32cm大幅降低到2.89cm。

物体affordance预测 (PIAD数据集) 也取得了SOTA表现。

消融实验

配置 说明
不同数据量训练 仅用40%的DAMON数据即可超过DECO全量训练的性能
语义接触 vs 二值接触 语义接触能区分多物体交互,传统方法无法做到
使用VQA辅助数据 GPT4o生成的VQA数据有助于训练
与LEMON对比 虽然LEMON使用配对数据,InteractVLM用非配对数据仍达到可比性能

关键发现

  • VLM的常识知识是性能大幅提升的关键因素,即使与DECO在相同数据上训练,仅凭VLM的知识就能带来20%的F1提升
  • 测地距离从21cm降到2.89cm,说明接触定位精度有质的飞跃
  • 方法可以扩展到80个人体接触类别和32个物体affordance类别,远超先前方法的21类限制
  • 数据效率极高:40%训练数据即超过完全监督的DECO

亮点与洞察

  • Render-Localize-Lift 框架:将3D问题优雅地转化为2D问题,核心巧妙之处在于利用已知的3D几何消除了2D到3D反投影的深度歧义,这个范式可以迁移到任何需要在3D表面上做细粒度标注的任务
  • 语义接触任务:从"有没有接触"到"和哪个物体接触"的升级,这个问题定义本身就很有价值,可以迁移到机器人抓取规划等场景
  • VLM知识蒸馏:用少量3D数据微调VLM来获取3D理解能力的思路,可以推广到其他3D任务,避免大规模3D标注

局限与展望

  • 物体3D形状通过OpenShape从数据库检索获得,对于数据库中不存在的新奇物体可能失效
  • 人体使用规范化的星形姿态,在极端姿态下渲染可能出现自遮挡问题
  • 仅在有限的数据集(DAMON, PIAD)上验证,更大规模的真实场景评估尚缺
  • 优化式的3D HOI重建依赖接触质量,错误接触会传播到重建结果

相关工作与启发

  • vs DECO: DECO直接从图像回归顶点接触概率,而InteractVLM通过VLM引导的多视图渲染实现3D定位,利用了更强的先验知识,F1提升20.6%
  • vs LEMON: LEMON需要配对的人-物体几何数据训练,覆盖21类;InteractVLM使用非配对数据,覆盖80+类,且可比性能
  • vs PARIS3D: 都用VLM+SAM,但PARIS3D对物体做3D分割,InteractVLM处理人物交互场景且引入FeatLift确保多视图一致性

评分

  • 新颖性: ⭐⭐⭐⭐ 将VLM知识迁移到3D接触估计的思路新颖,RLL框架设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 在多个数据集和任务上验证,消融充分,但缺少更大规模的野外评估
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图示丰富,方法描述详尽
  • 价值: ⭐⭐⭐⭐ RLL框架具有通用性,语义接触任务定义有启发性

相关论文