ViHOI: Human-Object Interaction Synthesis with Visual Priors¶

会议: CVPR 2026
arXiv: 2603.24383
代码: https://github.com/MPI-Lab/ViHOI
领域: 图像生成 / 运动生成
关键词: 人物交互生成, 视觉先验, 扩散模型, VLM, Q-Former

一句话总结¶

提出ViHOI，一个即插即用框架，利用VLM从2D参考图像中提取解耦的视觉和文本先验，通过Q-Former压缩为紧凑条件token来增强扩散模型的HOI运动生成质量，推理时借助文生图模型合成参考图像实现对未见物体的强泛化。

研究背景与动机¶

领域现状：3D人-物交互（HOI）运动生成旨在合成逼真、物理合理的人与物体交互序列，在VR、动画和机器人领域有重要应用。近年来扩散模型被广泛用于HOI生成任务。
现有痛点：现有方法的生成质量受限于条件信号质量。HOI过程涉及持续的空间状态变化和合理的交互关系，但数据集中的文本标注通常只提供抽象描述（如"拿起一个盒子"），缺乏关于物体形状、尺寸和人体姿态的几何空间先验，迫使模型面对复杂的"一对多"学习问题。
核心矛盾：现有增强方法分为语义增强（LLM扩展文本描述）和物理约束（接触点、运动学先验）两条路线。前者仍缺乏结构化知识来精确耦合运动与物体几何，后者往往只关注局部交互区域而忽视全身运动的全局动态和连贯性。
本文目标 如何有效利用易获取的2D图像中丰富的视觉交互先验（物体形状、尺度、人-物空间关系），来增强HOI运动生成的保真度和物理合理性。
切入角度：作者认为2D图像提供了一套丰富的视觉交互先验，包括物体形状、尺度和人-物空间关系。利用VLM同时提取图像和文本信息，可以天然保证两种模态的语义对齐。
核心 idea：用VLM从2D参考图像中解耦提取视觉和文本先验，通过Q-Former压缩后注入运动扩散模型，训练时用GT运动渲染图保证语义对齐，推理时用文生图模型合成参考图实现泛化。

方法详解¶

整体框架¶

ViHOI由两个核心组件构成：VLM-based Prior Extractor和Vision-aware HOI Generator。输入包括一组2D参考图像和文本描述，VLM（Qwen2.5-VL）从不同层分别提取视觉先验和文本先验，通过两个Q-Former-based Prior Adaptor压缩为紧凑token，然后作为条件注入基于DiT的运动扩散模型中，通过自注意力机制引导HOI运动合成。训练阶段使用GT运动渲染的图像，推理阶段使用文生图模型合成的参考图像。

关键设计¶

层解耦先验提取（Decoupled Priors Extraction）:
- 功能：从VLM的不同层分别提取视觉和文本先验
- 核心思路：利用VLM浅层保留更多视觉细节、深层具有更强文本编码能力的特性，从Qwen2.5-VL的第3层提取视觉先验 \(E_v\)（保留丰富的几何空间线索），从第12层提取文本先验 \(E_t\)（捕获运动描述的语义信息）。同时设计结构化prompt引导VLM关注关键交互线索（物体形状、尺寸、接触区域），确保提取的先验具有任务感知性
- 设计动机：VLM不同层对图像和文本的关注程度不同，解耦策略能为每种模态提供信息量最大的先验，胜过从同一层提取的方案。消融实验证实V3-T12组合在所有层组合中性能最优
Q-Former Prior Adaptor:
- 功能：将VLM中间层的高维、变长token序列压缩为紧凑的固定维度条件信号
- 核心思路：先通过线性投影 \(Z_v = \text{LayerNorm}(\text{Linear}(E_v))\) 对齐维度，再用可学习query \(q_v\) 与映射后的特征做两层交叉注意力 \(c_v = \text{CrossAttention}(q_v, Z_v, Z_v)\)，将丰富先验蒸馏为单个紧凑token。视觉和文本分别用独立的Q-Former适配
- 设计动机：VLM中间层输出是高维变长序列，直接用作扩散模型条件极具挑战。Q-Former可以自适应地从冗余VLM特征中提取与HOI合成最相关的信息。消融实验显示，替换为简单平均池化后性能急剧下降
参考图像生成策略（训练/推理分离）:
- 功能：解决训练和推理阶段获取2D参考图像的方式差异
- 核心思路：训练阶段从GT运动序列渲染2D图像，利用接触标签选取交互开始、中间、结束三个关键帧，确保视觉先验与目标运动的严格语义一致。推理阶段用文生图模型Nano Banana合成三张时序连贯的HOI参考图像，利用其内嵌的丰富世界知识增强泛化能力
- 设计动机：训练时用渲染图保证严格语义对齐且成本低，避免额外收集大规模图像-运动配对数据。推理时利用文生图模型的世界知识，即使存在风格差距（干净渲染图vs合成图），VLM先验提取器仍能识别底层运动相关特征

损失函数 / 训练策略¶

训练目标为标准的扩散模型重建损失：\(\mathcal{L} = \mathbb{E}_{t,x_0}[\|x_0 - f_\theta(x_t, t, c)\|^2]\)
训练时冻结VLM参数，仅联合训练两个Q-Former Prior Adaptor和HOI Generator
条件 \(c = \{c_v, c_t\}\) 包含视觉和文本两个紧凑prior token

实验关键数据¶

主实验¶

数据集	指标	CHOIS+ViHOI	CHOIS	提升
FullBodyManipulation	FID↓	0.68	0.77	-11.7%
FullBodyManipulation	R-Precision Top-3↑	0.79	0.73	+8.2%
FullBodyManipulation	MPJPE↓	14.97	15.43	-3.0%
FullBodyManipulation	\(C_{F_1}\)↑	0.75	0.70	+7.1%
BEHAVE	FID↓	2.02	4.99	-59.5%
BEHAVE	MPJPE↓	14.58	15.42	-5.4%
未见物体	FID↓	2.02	4.99	-59.5%

消融实验¶

配置	R-Precision Top-3	FID↓	MPJPE↓	说明
ViHOI (完整, V3-T12)	0.79	0.68	14.97	最优组合
ViHOI-Pool (平均池化)	0.32	26.03	22.62	Q-Former→池化，性能暴跌
ViHOI-CLIP (CLIP文本)	0.75	0.69	17.57	VLM文本→CLIP，性能下降
T12-only (仅文本先验)	0.72	1.28	17.49	无视觉先验，明显退化
V12-T12	0.75	0.87	15.90	视觉层过深损失细节
V24-T24	0.61	3.15	16.94	两层都太深效果差

关键发现¶

Q-Former至关重要：替换为简单池化后FID从0.68暴涨至26.03，说明有效的先验压缩机制不可或缺
视觉先验显著优于仅文本先验：加入视觉先验后MPJPE从17.49降至14.97，证明2D图像中的几何空间信息对运动生成的重要性
VLM文本先验优于CLIP：从VLM提取的文本embedding比CLIP更丰富，MPJPE从17.57降至14.97
在未见物体上泛化能力强：借助文生图模型的世界知识，ViHOI在未见物体和3D-FUTURE数据集上仍生成合理运动
即插即用特性：成功提升MDM、ROG、CHOIS三种不同基线模型的性能

亮点与洞察¶

"图像作为运动先验"的范式非常优雅——利用易获取的2D图像提供3D运动生成所需的几何空间先验，避免了复杂的物理约束建模
训练/推理分离的参考图像策略巧妙地解决了数据瓶颈：训练时用渲染图保证对齐，推理时用文生图模型引入世界知识实现泛化
Q-Former的使用将变长高维VLM特征压缩为固定维度token，是连接大型基础模型与下游任务的通用设计模式
即插即用设计使其可以直接增强任何现有的HOI运动扩散模型

局限与展望¶

作者承认的局限：使用的数据集缺乏精细的手部标注，无法准确生成详细的手指运动序列
依赖文生图模型的质量：推理时参考图像的合理性直接影响生成运动的质量
仅用三个关键帧可能不足以表达复杂的长时交互过程
未探索视频生成模型作为先验来源的可能性，视频比静态图像能提供更丰富的时序动态信息

评分¶

新颖性: ⭐⭐⭐⭐ 图像作为运动先验的范式新颖，VLM层解耦提取策略有启发性
实验充分度: ⭐⭐⭐⭐ 两个数据集、三个基线模型、未见物体泛化和详细消融
写作质量: ⭐⭐⭐⭐ 逻辑清晰，方法介绍有层次
价值: ⭐⭐⭐⭐ 即插即用框架实用性强，范式创新可迁移