ViHOI: Human-Object Interaction Synthesis with Visual Priors¶
会议: CVPR 2026
arXiv: 2603.24383
代码: https://github.com/MPI-Lab/ViHOI
领域: 图像生成 / 运动生成
关键词: 人物交互生成, 视觉先验, 扩散模型, VLM, Q-Former
一句话总结¶
提出ViHOI,一个即插即用框架,利用VLM从2D参考图像中提取解耦的视觉和文本先验,通过Q-Former压缩为紧凑条件token来增强扩散模型的HOI运动生成质量,推理时借助文生图模型合成参考图像实现对未见物体的强泛化。
研究背景与动机¶
-
领域现状:3D人-物交互(HOI)运动生成旨在合成逼真、物理合理的人与物体交互序列,在VR、动画和机器人领域有重要应用。近年来扩散模型被广泛用于HOI生成任务。
-
现有痛点:现有方法的生成质量受限于条件信号质量。HOI过程涉及持续的空间状态变化和合理的交互关系,但数据集中的文本标注通常只提供抽象描述(如"拿起一个盒子"),缺乏关于物体形状、尺寸和人体姿态的几何空间先验,迫使模型面对复杂的"一对多"学习问题。
-
核心矛盾:现有增强方法分为语义增强(LLM扩展文本描述)和物理约束(接触点、运动学先验)两条路线。前者仍缺乏结构化知识来精确耦合运动与物体几何,后者往往只关注局部交互区域而忽视全身运动的全局动态和连贯性。
-
本文目标 如何有效利用易获取的2D图像中丰富的视觉交互先验(物体形状、尺度、人-物空间关系),来增强HOI运动生成的保真度和物理合理性。
-
切入角度:作者认为2D图像提供了一套丰富的视觉交互先验,包括物体形状、尺度和人-物空间关系。利用VLM同时提取图像和文本信息,可以天然保证两种模态的语义对齐。
-
核心 idea:用VLM从2D参考图像中解耦提取视觉和文本先验,通过Q-Former压缩后注入运动扩散模型,训练时用GT运动渲染图保证语义对齐,推理时用文生图模型合成参考图实现泛化。
方法详解¶
整体框架¶
ViHOI由两个核心组件构成:VLM-based Prior Extractor和Vision-aware HOI Generator。输入包括一组2D参考图像和文本描述,VLM(Qwen2.5-VL)从不同层分别提取视觉先验和文本先验,通过两个Q-Former-based Prior Adaptor压缩为紧凑token,然后作为条件注入基于DiT的运动扩散模型中,通过自注意力机制引导HOI运动合成。训练阶段使用GT运动渲染的图像,推理阶段使用文生图模型合成的参考图像。
关键设计¶
-
层解耦先验提取(Decoupled Priors Extraction):
- 功能:从VLM的不同层分别提取视觉和文本先验
- 核心思路:利用VLM浅层保留更多视觉细节、深层具有更强文本编码能力的特性,从Qwen2.5-VL的第3层提取视觉先验 \(E_v\)(保留丰富的几何空间线索),从第12层提取文本先验 \(E_t\)(捕获运动描述的语义信息)。同时设计结构化prompt引导VLM关注关键交互线索(物体形状、尺寸、接触区域),确保提取的先验具有任务感知性
- 设计动机:VLM不同层对图像和文本的关注程度不同,解耦策略能为每种模态提供信息量最大的先验,胜过从同一层提取的方案。消融实验证实V3-T12组合在所有层组合中性能最优
-
Q-Former Prior Adaptor:
- 功能:将VLM中间层的高维、变长token序列压缩为紧凑的固定维度条件信号
- 核心思路:先通过线性投影 \(Z_v = \text{LayerNorm}(\text{Linear}(E_v))\) 对齐维度,再用可学习query \(q_v\) 与映射后的特征做两层交叉注意力 \(c_v = \text{CrossAttention}(q_v, Z_v, Z_v)\),将丰富先验蒸馏为单个紧凑token。视觉和文本分别用独立的Q-Former适配
- 设计动机:VLM中间层输出是高维变长序列,直接用作扩散模型条件极具挑战。Q-Former可以自适应地从冗余VLM特征中提取与HOI合成最相关的信息。消融实验显示,替换为简单平均池化后性能急剧下降
-
参考图像生成策略(训练/推理分离):
- 功能:解决训练和推理阶段获取2D参考图像的方式差异
- 核心思路:训练阶段从GT运动序列渲染2D图像,利用接触标签选取交互开始、中间、结束三个关键帧,确保视觉先验与目标运动的严格语义一致。推理阶段用文生图模型Nano Banana合成三张时序连贯的HOI参考图像,利用其内嵌的丰富世界知识增强泛化能力
- 设计动机:训练时用渲染图保证严格语义对齐且成本低,避免额外收集大规模图像-运动配对数据。推理时利用文生图模型的世界知识,即使存在风格差距(干净渲染图vs合成图),VLM先验提取器仍能识别底层运动相关特征
损失函数 / 训练策略¶
- 训练目标为标准的扩散模型重建损失:\(\mathcal{L} = \mathbb{E}_{t,x_0}[\|x_0 - f_\theta(x_t, t, c)\|^2]\)
- 训练时冻结VLM参数,仅联合训练两个Q-Former Prior Adaptor和HOI Generator
- 条件 \(c = \{c_v, c_t\}\) 包含视觉和文本两个紧凑prior token
实验关键数据¶
主实验¶
| 数据集 | 指标 | CHOIS+ViHOI | CHOIS | 提升 |
|---|---|---|---|---|
| FullBodyManipulation | FID↓ | 0.68 | 0.77 | -11.7% |
| FullBodyManipulation | R-Precision Top-3↑ | 0.79 | 0.73 | +8.2% |
| FullBodyManipulation | MPJPE↓ | 14.97 | 15.43 | -3.0% |
| FullBodyManipulation | \(C_{F_1}\)↑ | 0.75 | 0.70 | +7.1% |
| BEHAVE | FID↓ | 2.02 | 4.99 | -59.5% |
| BEHAVE | MPJPE↓ | 14.58 | 15.42 | -5.4% |
| 未见物体 | FID↓ | 2.02 | 4.99 | -59.5% |
消融实验¶
| 配置 | R-Precision Top-3 | FID↓ | MPJPE↓ | 说明 |
|---|---|---|---|---|
| ViHOI (完整, V3-T12) | 0.79 | 0.68 | 14.97 | 最优组合 |
| ViHOI-Pool (平均池化) | 0.32 | 26.03 | 22.62 | Q-Former→池化,性能暴跌 |
| ViHOI-CLIP (CLIP文本) | 0.75 | 0.69 | 17.57 | VLM文本→CLIP,性能下降 |
| T12-only (仅文本先验) | 0.72 | 1.28 | 17.49 | 无视觉先验,明显退化 |
| V12-T12 | 0.75 | 0.87 | 15.90 | 视觉层过深损失细节 |
| V24-T24 | 0.61 | 3.15 | 16.94 | 两层都太深效果差 |
关键发现¶
- Q-Former至关重要:替换为简单池化后FID从0.68暴涨至26.03,说明有效的先验压缩机制不可或缺
- 视觉先验显著优于仅文本先验:加入视觉先验后MPJPE从17.49降至14.97,证明2D图像中的几何空间信息对运动生成的重要性
- VLM文本先验优于CLIP:从VLM提取的文本embedding比CLIP更丰富,MPJPE从17.57降至14.97
- 在未见物体上泛化能力强:借助文生图模型的世界知识,ViHOI在未见物体和3D-FUTURE数据集上仍生成合理运动
- 即插即用特性:成功提升MDM、ROG、CHOIS三种不同基线模型的性能
亮点与洞察¶
- "图像作为运动先验"的范式非常优雅——利用易获取的2D图像提供3D运动生成所需的几何空间先验,避免了复杂的物理约束建模
- 训练/推理分离的参考图像策略巧妙地解决了数据瓶颈:训练时用渲染图保证对齐,推理时用文生图模型引入世界知识实现泛化
- Q-Former的使用将变长高维VLM特征压缩为固定维度token,是连接大型基础模型与下游任务的通用设计模式
- 即插即用设计使其可以直接增强任何现有的HOI运动扩散模型
局限与展望¶
- 作者承认的局限:使用的数据集缺乏精细的手部标注,无法准确生成详细的手指运动序列
- 依赖文生图模型的质量:推理时参考图像的合理性直接影响生成运动的质量
- 仅用三个关键帧可能不足以表达复杂的长时交互过程
- 未探索视频生成模型作为先验来源的可能性,视频比静态图像能提供更丰富的时序动态信息
相关工作与启发¶
- vs SemGeoMo: SemGeoMo用LLM增强文本+affordance map作为几何先验,在接触质量上表现良好但全身运动精度不足;ViHOI通过视觉先验同时改善接触质量和关节精度,更好地平衡局部精度与全局一致性
- vs CHOIS: CHOIS用稀疏物体路标点作为全局路径先验;ViHOI提供更丰富的视觉先验,FID和MPJPE全面优于CHOIS
- vs 视频生成+3D恢复方法: 这类方法依赖2D-3D姿态估计,存在抖动和时序不一致问题;ViHOI将视觉先验编码为紧凑token隐式引导生成,避免了显式姿态恢复
评分¶
- 新颖性: ⭐⭐⭐⭐ 图像作为运动先验的范式新颖,VLM层解耦提取策略有启发性
- 实验充分度: ⭐⭐⭐⭐ 两个数据集、三个基线模型、未见物体泛化和详细消融
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,方法介绍有层次
- 价值: ⭐⭐⭐⭐ 即插即用框架实用性强,范式创新可迁移
相关论文¶
- [CVPR 2025] HOI-IDiff: An Image-like Diffusion Method for Human-Object Interaction Detection
- [ICCV 2025] ScoreHOI: Physically Plausible Reconstruction of Human-Object Interaction via Score-Guided Diffusion
- [CVPR 2026] Object-WIPER: Training-Free Object and Associated Effect Removal in Videos
- [CVPR 2025] InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation
- [CVPR 2026] HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation