跳转至

Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection

会议: CVPR 2026
arXiv: 2604.02071
代码: https://github.com/nowuss/InCoM-Net
领域: 目标检测 / 人物交互检测
关键词: 人物交互检测, 视觉语言模型, 实例级上下文, 多上下文特征, 注意力机制

一句话总结

提出 InCoM-Net,通过从 VLM 特征中为每个实例分别提取实例内、实例间和全局三层上下文特征,并通过渐进式上下文聚合与检测器特征融合,在 HICO-DET 和 V-COCO 上取得 HOI 检测 SOTA(HICO-DET Full mAP 43.96,V-COCO AP_role^S1 73.6)。

研究背景与动机

  1. 领域现状:HOI 检测旨在定位图像中的人-物对并分类其交互关系,是视觉理解的基础任务。近年来基于 Transformer 和 VLM(如 CLIP、BLIP)的方法显著提升了性能。
  2. 现有痛点:现有 VLM 集成方法要么仅使用场景级 VLM 特征作为全局语义先验(如 HOICLIP、UniHOI),要么通过 RoI 对齐将 VLM 特征局限在物体边界框内(如 ADA-CM、BCOM),无法充分挖掘场景中分布在不同层次的上下文线索。
  3. 核心矛盾:HOI 推理需要同时理解目标实例自身的视觉线索、与周围实例的关系、以及全局场景语境,但现有方法对所有实例统一施加上下文信息,缺乏实例特异性的上下文建模。
  4. 本文目标 如何从 VLM 特征中为每个实例提取多层次的上下文信息,并有效融合到检测器的实例特征中。
  5. 切入角度:作者观察到人类对 HOI 的判断依赖三类线索——目标实例内部视觉特征、与其他实例的关系、以及周围场景信息——因此设计了实例中心的多上下文挖掘方案。
  6. 核心 idea:通过掩码自注意力从 VLM 特征中分别提取实例内/实例间/全局三类上下文,再渐进式融合到检测器查询中。

方法详解

整体框架

InCoM-Net 采用双分支架构:(1)DETR 检测器分支提取实例级特征 \(q^l\);(2)CLIP 视觉编码器提取 VLM 特征 \(V^l\)。核心模块为 Instance-centric Context Mining,包含 ICR(实例中心上下文精炼)和 ProCA(渐进式上下文聚合)两个子模块,跨 \(L\) 层迭代处理。最终通过 HO Pair Generator 构建人-物对特征,送入交互解码器完成 HOI 分类。

关键设计

  1. Instance-centric Context Refinement (ICR):

    • 功能:从 VLM 特征中为每个实例分别生成三类上下文特征
    • 核心思路:对 VLM 特征 \(V^l\) 应用掩码自注意力。为第 \(i\) 个实例构建实例掩码 \(M_i^R\)(标记该实例区域)和周围掩码 \(M_i^C\)(其他实例的并集)。无掩码的自注意力输出全局上下文 \(G^l\),用 \(M_i^R\) 限制的自注意力输出实例内上下文 \(R_i^l\),用 \(M_i^C\) 限制的自注意力输出实例间上下文 \(C_i^l\)。三类输出各自经 FFN 编码。
    • 设计动机:不同层次的上下文提供互补信息——实例内特征捕捉目标外观,实例间特征建模物体关系,全局特征提供场景语境。分别编码可保留语义多样性。
  2. Progressive Context Aggregation (ProCA):

    • 功能:将 ICR 产生的多上下文特征渐进式融合到检测器查询特征中
    • 核心思路:将检测器查询 \(q_i^l\) 与上一层聚合特征 \(f_i^{l-1}\) 相加作为查询,分别对 \(G^l\)\(R_i^l\)\(C_i^l\) 做交叉注意力,得到三个输出后拼接经 FFN 生成当前层聚合特征 \(f_i^l\)。此过程跨 \(L\) 层迭代,每层使用不同 VLM 层的特征。
    • 设计动机:渐进式多层聚合使模型能逐步整合不同语义层次的 VLM 信息,增强实例外观与上下文间的对齐。
  3. Masked Feature Training (MFT):

    • 功能:平衡 VLM 和检测器两种异构特征的利用
    • 核心思路:训练时等概率构建三种输入配置——完整输入(VLM+检测器)、仅检测器、仅 VLM。被遮蔽的分支特征置零且对应交叉注意力停用。最终损失为三种配置的 focal loss 之和。
    • 设计动机:两种异构特征来源容易导致模型过度依赖单一来源。随机遮蔽迫使模型学会在不同条件下利用互补信息,提升鲁棒性。

损失函数 / 训练策略

  • 交互分类采用 focal loss
  • 三种掩码配置(full/detector-only/VLM-only)各自产生 focal loss,总损失为三者之和
  • DETR 和 CLIP 均冻结不训练,仅训练 ICR、ProCA、HO Pair Generator 及交互解码器
  • 使用 AdamW 优化器,初始学习率 \(10^{-4}\),每 10 epoch 衰减 5 倍,30 epoch 完成训练

实验关键数据

主实验

数据集 指标 InCoM-Net (ViT-L) NMSR (prev SOTA) 提升
HICO-DET Full mAP 43.96 42.93 +1.03
HICO-DET Rare mAP 45.61 42.41 +3.20
HICO-DET Non-rare mAP 43.46 43.11 +0.35
V-COCO AP_role^S1 73.6 69.8 +3.8
V-COCO AP_role^S2 75.4 72.1 +3.3

ViT-B 版本:HICO-DET Full 39.53(超 HORP +0.92),V-COCO S1 72.2(超 SCTC +5.1)。

消融实验

配置 Full mAP Rare mAP 说明
Baseline(无 ICR/ProCA) 36.17 33.11 仅检测器特征
+ ICR 37.42 34.47 +1.25,多上下文有效
+ ProCA 38.42 36.80 +1.00,渐进聚合有效
+ MFT 39.53 38.87 +1.11,平衡异构特征

多上下文类型消融(在 ICR+ProCA 上):

上下文配置 Full mAP Rare mAP
仅 V(原始 VLM) 38.30 37.31
+ G(全局) 38.65 36.76
+ R(实例内) 39.19 38.78
+ C(实例间) 39.53 38.87

关键发现

  • MFT 贡献最大(+1.11 mAP),尤其在 Rare 类上提升 +2.07,说明平衡异构特征对低频交互至关重要
  • 实例内上下文 \(R\) 对 Rare 类贡献最显著(+2.02),表明细粒度实例信息对罕见交互推理尤为关键
  • 零样本设置下 InCoM-Net 同样 SOTA,RF-UC 和 NF-UC 的 Unseen 分别达到 37.69/39.45(ViT-L),显示出强泛化能力
  • ProCA 层数在 3 层时性能最优,更多层的增益趋于饱和

亮点与洞察

  • 实例级多上下文分解:通过掩码机制从共享 VLM 特征中自适应提取三类上下文,既简洁又有效。将上下文按语义角色分离后再融合,比直接使用全局 VLM 特征更能捕捉细粒度关系。
  • MFT 策略:随机遮蔽异构特征源的训练策略令人惊喜——类似 dropout 的思想被创造性地应用到多模态特征融合中,有效防止模型过度依赖单一来源。
  • 迁移潜力:这种实例中心的多上下文挖掘思路可迁移到场景图生成、关系推理等需要实例间关系建模的任务中。

局限与展望

  • DETR 和 CLIP 均冻结,限制了端到端优化的潜力;可探索部分微调 VLM 编码器
  • 掩码来源依赖检测器的检测质量,漏检或错检会影响上下文的准确性
  • 仅考虑静态图像上下文,未利用动作的时序线索(如视频 HOI)
  • 三种掩码配置等概率训练,可探索自适应采样策略

相关工作与启发

  • vs BCOM (CVPR24): BCOM 用双分支分别编码 RoI 特征和 VLM 特征,但缺乏实例间上下文建模。InCoM-Net 通过 ICR 统一提取多层次上下文,性能超 BCOM +4.62 mAP(ViT-L)。
  • vs ADA-CM (ICCV23): ADA-CM 通过 adapter 注入检测信号并做 RoI 池化,但对所有实例使用统一上下文。InCoM-Net 的实例特异性上下文建模是关键差异。
  • vs NMSR (ICCV25): 前 SOTA,InCoM-Net 在 HICO-DET 上超 +1.03,在 V-COCO 上超 +3.8,优势主要来自多上下文精炼和渐进聚合。

评分

  • 新颖性: ⭐⭐⭐⭐ 实例级多上下文分解思路新颖,MFT 策略有创意,但基本框架仍是 DETR+CLIP 双分支
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、regular+zero-shot、详细消融、可视化,非常充分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图示直观,动机推导连贯
  • 价值: ⭐⭐⭐⭐ HOI 检测 SOTA,方法设计可迁移到其他关系推理任务

相关论文