跳转至

ViHOI: Human-Object Interaction Synthesis with Visual Priors

会议: CVPR 2026
arXiv: 2603.24383
代码: https://github.com/MPI-Lab/ViHOI
领域: 图像生成 / 运动生成
关键词: 人物交互生成, 视觉先验, 扩散模型, VLM, Q-Former

一句话总结

提出ViHOI,一个即插即用框架,利用VLM从2D参考图像中提取解耦的视觉和文本先验,通过Q-Former压缩为紧凑条件token来增强扩散模型的HOI运动生成质量,推理时借助文生图模型合成参考图像实现对未见物体的强泛化。

研究背景与动机

  1. 领域现状:3D人-物交互(HOI)运动生成旨在合成逼真、物理合理的人与物体交互序列,在VR、动画和机器人领域有重要应用。近年来扩散模型被广泛用于HOI生成任务。

  2. 现有痛点:现有方法的生成质量受限于条件信号质量。HOI过程涉及持续的空间状态变化和合理的交互关系,但数据集中的文本标注通常只提供抽象描述(如"拿起一个盒子"),缺乏关于物体形状、尺寸和人体姿态的几何空间先验,迫使模型面对复杂的"一对多"学习问题。

  3. 核心矛盾:现有增强方法分为语义增强(LLM扩展文本描述)和物理约束(接触点、运动学先验)两条路线。前者仍缺乏结构化知识来精确耦合运动与物体几何,后者往往只关注局部交互区域而忽视全身运动的全局动态和连贯性。

  4. 本文目标 如何有效利用易获取的2D图像中丰富的视觉交互先验(物体形状、尺度、人-物空间关系),来增强HOI运动生成的保真度和物理合理性。

  5. 切入角度:作者认为2D图像提供了一套丰富的视觉交互先验,包括物体形状、尺度和人-物空间关系。利用VLM同时提取图像和文本信息,可以天然保证两种模态的语义对齐。

  6. 核心 idea:用VLM从2D参考图像中解耦提取视觉和文本先验,通过Q-Former压缩后注入运动扩散模型,训练时用GT运动渲染图保证语义对齐,推理时用文生图模型合成参考图实现泛化。

方法详解

整体框架

ViHOI由两个核心组件构成:VLM-based Prior Extractor和Vision-aware HOI Generator。输入包括一组2D参考图像和文本描述,VLM(Qwen2.5-VL)从不同层分别提取视觉先验和文本先验,通过两个Q-Former-based Prior Adaptor压缩为紧凑token,然后作为条件注入基于DiT的运动扩散模型中,通过自注意力机制引导HOI运动合成。训练阶段使用GT运动渲染的图像,推理阶段使用文生图模型合成的参考图像。

关键设计

  1. 层解耦先验提取(Decoupled Priors Extraction):

    • 功能:从VLM的不同层分别提取视觉和文本先验
    • 核心思路:利用VLM浅层保留更多视觉细节、深层具有更强文本编码能力的特性,从Qwen2.5-VL的第3层提取视觉先验 \(E_v\)(保留丰富的几何空间线索),从第12层提取文本先验 \(E_t\)(捕获运动描述的语义信息)。同时设计结构化prompt引导VLM关注关键交互线索(物体形状、尺寸、接触区域),确保提取的先验具有任务感知性
    • 设计动机:VLM不同层对图像和文本的关注程度不同,解耦策略能为每种模态提供信息量最大的先验,胜过从同一层提取的方案。消融实验证实V3-T12组合在所有层组合中性能最优
  2. Q-Former Prior Adaptor:

    • 功能:将VLM中间层的高维、变长token序列压缩为紧凑的固定维度条件信号
    • 核心思路:先通过线性投影 \(Z_v = \text{LayerNorm}(\text{Linear}(E_v))\) 对齐维度,再用可学习query \(q_v\) 与映射后的特征做两层交叉注意力 \(c_v = \text{CrossAttention}(q_v, Z_v, Z_v)\),将丰富先验蒸馏为单个紧凑token。视觉和文本分别用独立的Q-Former适配
    • 设计动机:VLM中间层输出是高维变长序列,直接用作扩散模型条件极具挑战。Q-Former可以自适应地从冗余VLM特征中提取与HOI合成最相关的信息。消融实验显示,替换为简单平均池化后性能急剧下降
  3. 参考图像生成策略(训练/推理分离):

    • 功能:解决训练和推理阶段获取2D参考图像的方式差异
    • 核心思路:训练阶段从GT运动序列渲染2D图像,利用接触标签选取交互开始、中间、结束三个关键帧,确保视觉先验与目标运动的严格语义一致。推理阶段用文生图模型Nano Banana合成三张时序连贯的HOI参考图像,利用其内嵌的丰富世界知识增强泛化能力
    • 设计动机:训练时用渲染图保证严格语义对齐且成本低,避免额外收集大规模图像-运动配对数据。推理时利用文生图模型的世界知识,即使存在风格差距(干净渲染图vs合成图),VLM先验提取器仍能识别底层运动相关特征

损失函数 / 训练策略

  • 训练目标为标准的扩散模型重建损失:\(\mathcal{L} = \mathbb{E}_{t,x_0}[\|x_0 - f_\theta(x_t, t, c)\|^2]\)
  • 训练时冻结VLM参数,仅联合训练两个Q-Former Prior Adaptor和HOI Generator
  • 条件 \(c = \{c_v, c_t\}\) 包含视觉和文本两个紧凑prior token

实验关键数据

主实验

数据集 指标 CHOIS+ViHOI CHOIS 提升
FullBodyManipulation FID↓ 0.68 0.77 -11.7%
FullBodyManipulation R-Precision Top-3↑ 0.79 0.73 +8.2%
FullBodyManipulation MPJPE↓ 14.97 15.43 -3.0%
FullBodyManipulation \(C_{F_1}\) 0.75 0.70 +7.1%
BEHAVE FID↓ 2.02 4.99 -59.5%
BEHAVE MPJPE↓ 14.58 15.42 -5.4%
未见物体 FID↓ 2.02 4.99 -59.5%

消融实验

配置 R-Precision Top-3 FID↓ MPJPE↓ 说明
ViHOI (完整, V3-T12) 0.79 0.68 14.97 最优组合
ViHOI-Pool (平均池化) 0.32 26.03 22.62 Q-Former→池化,性能暴跌
ViHOI-CLIP (CLIP文本) 0.75 0.69 17.57 VLM文本→CLIP,性能下降
T12-only (仅文本先验) 0.72 1.28 17.49 无视觉先验,明显退化
V12-T12 0.75 0.87 15.90 视觉层过深损失细节
V24-T24 0.61 3.15 16.94 两层都太深效果差

关键发现

  • Q-Former至关重要:替换为简单池化后FID从0.68暴涨至26.03,说明有效的先验压缩机制不可或缺
  • 视觉先验显著优于仅文本先验:加入视觉先验后MPJPE从17.49降至14.97,证明2D图像中的几何空间信息对运动生成的重要性
  • VLM文本先验优于CLIP:从VLM提取的文本embedding比CLIP更丰富,MPJPE从17.57降至14.97
  • 在未见物体上泛化能力强:借助文生图模型的世界知识,ViHOI在未见物体和3D-FUTURE数据集上仍生成合理运动
  • 即插即用特性:成功提升MDM、ROG、CHOIS三种不同基线模型的性能

亮点与洞察

  • "图像作为运动先验"的范式非常优雅——利用易获取的2D图像提供3D运动生成所需的几何空间先验,避免了复杂的物理约束建模
  • 训练/推理分离的参考图像策略巧妙地解决了数据瓶颈:训练时用渲染图保证对齐,推理时用文生图模型引入世界知识实现泛化
  • Q-Former的使用将变长高维VLM特征压缩为固定维度token,是连接大型基础模型与下游任务的通用设计模式
  • 即插即用设计使其可以直接增强任何现有的HOI运动扩散模型

局限与展望

  • 作者承认的局限:使用的数据集缺乏精细的手部标注,无法准确生成详细的手指运动序列
  • 依赖文生图模型的质量:推理时参考图像的合理性直接影响生成运动的质量
  • 仅用三个关键帧可能不足以表达复杂的长时交互过程
  • 未探索视频生成模型作为先验来源的可能性,视频比静态图像能提供更丰富的时序动态信息

相关工作与启发

  • vs SemGeoMo: SemGeoMo用LLM增强文本+affordance map作为几何先验,在接触质量上表现良好但全身运动精度不足;ViHOI通过视觉先验同时改善接触质量和关节精度,更好地平衡局部精度与全局一致性
  • vs CHOIS: CHOIS用稀疏物体路标点作为全局路径先验;ViHOI提供更丰富的视觉先验,FID和MPJPE全面优于CHOIS
  • vs 视频生成+3D恢复方法: 这类方法依赖2D-3D姿态估计,存在抖动和时序不一致问题;ViHOI将视觉先验编码为紧凑token隐式引导生成,避免了显式姿态恢复

评分

  • 新颖性: ⭐⭐⭐⭐ 图像作为运动先验的范式新颖,VLM层解耦提取策略有启发性
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集、三个基线模型、未见物体泛化和详细消融
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,方法介绍有层次
  • 价值: ⭐⭐⭐⭐ 即插即用框架实用性强,范式创新可迁移

相关论文