OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Models¶

会议: NeurIPS 2025
arXiv: 2505.18947
代码: 有
领域: 多模态VLM / 手物交互
关键词: 手物交互, 开放世界, MLLM, 接触推理, 抓取合成

一句话总结¶

提出 OpenHOI 框架，利用多模态大语言模型（MLLM）的常识推理能力来推断陌生物体的接触区域和抓取类型，实现开放世界的手物交互合成，无需针对每个物体收集训练数据。

领域现状：手物交互（HOI）合成在 VR/AR、机器人抓取、动画等领域至关重要。现有方法通常在封闭物体集上训练，泛化到新物体时效果差。

现有痛点：(1) 需要大量手物接触数据，采集困难；(2) 对新物体形状缺乏先验知识；(3) 基于学习的方法在训练分布外的物体上严重退化。

核心矛盾：封闭集训练 vs 开放世界应用——如何在不见过的物体上生成合理的抓取姿态？

切入角度：MLLM（如 GPT-4V）具有丰富的物体常识——它知道"杯子的把手适合用力抓"、"鸡蛋表面光滑需要精细抓"——利用这种常识推理来指导抓取合成。

核心 idea：MLLM 推理接触区域 + 抓取类型 → 条件化的抓取姿态生成 → 物理优化确保物理合理。

输入物体图像/描述 → MLLM 推理（接触区域、抓取类型、力度）→ 条件化扩散模型生成手部姿态 → 物理后处理（穿透消除、接触优化）。

MLLM 接触推理
- 功能：推断物体的可接触区域、适合的抓取类型和力度
- 核心思路：将物体图像和文字描述提供给 MLLM，通过精心设计的提示引导其输出结构化的接触信息
- 设计动机：MLLM 的常识知识可以弥补缺乏训练数据的问题——它"知道"杯子怎么拿
条件化抓取生成
- 功能：根据 MLLM 推理的接触条件生成手部 MANO 参数
- 核心思路：条件扩散模型，以接触热力图和抓取类型嵌入为条件，生成手部姿态参数
- 设计动机：扩散模型能生成多样化的合理姿态，而非单一确定性输出
物理后处理
- 功能：消除手物穿透、优化接触质量
- 核心思路：迭代优化——检测穿透 → 沿法线方向推手 → 优化接触面积
- 设计动机：纯学习方法无法保证物理合理，后处理修复剩余问题

扩散模型训练：去噪损失 \(\|ε - ε_\theta(x_t, t, c)\|^2\)。接触条件 \(c\) 包含 MLLM 推理的区域热力图和类型嵌入。

方法	穿透深度↓	接触面积↑	物理稳定性↑	新物体泛化
GraspTTA	3.2mm	12.5cm²	78%	✗ 差
ContactOpt	2.8mm	15.3cm²	82%	✗ 差
MLLM baseline	4.5mm	8.7cm²	65%	✓ 有
OpenHOI	1.5mm	18.2cm²	91%	✓ 好

配置	穿透深度	物理稳定性	说明
无 MLLM 推理	2.8mm	82%	无接触先验
有 MLLM，无物理后处理	2.1mm	85%	有先验但有穿透
完整 OpenHOI	1.5mm	91%	MLLM+物理