Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection¶

会议: CVPR 2026
arXiv: 2604.02071
代码: https://github.com/nowuss/InCoM-Net
领域: 目标检测 / 人物交互检测
关键词: 人物交互检测, 视觉语言模型, 实例级上下文, 多上下文特征, 注意力机制

一句话总结¶

提出 InCoM-Net，通过从 VLM 特征中为每个实例分别提取实例内、实例间和全局三层上下文特征，并通过渐进式上下文聚合与检测器特征融合，在 HICO-DET 和 V-COCO 上取得 HOI 检测 SOTA（HICO-DET Full mAP 43.96，V-COCO AP_role^S1 73.6）。

研究背景与动机¶

领域现状：HOI 检测旨在定位图像中的人-物对并分类其交互关系，是视觉理解的基础任务。近年来基于 Transformer 和 VLM（如 CLIP、BLIP）的方法显著提升了性能。
现有痛点：现有 VLM 集成方法要么仅使用场景级 VLM 特征作为全局语义先验（如 HOICLIP、UniHOI），要么通过 RoI 对齐将 VLM 特征局限在物体边界框内（如 ADA-CM、BCOM），无法充分挖掘场景中分布在不同层次的上下文线索。
核心矛盾：HOI 推理需要同时理解目标实例自身的视觉线索、与周围实例的关系、以及全局场景语境，但现有方法对所有实例统一施加上下文信息，缺乏实例特异性的上下文建模。
本文目标 如何从 VLM 特征中为每个实例提取多层次的上下文信息，并有效融合到检测器的实例特征中。
切入角度：作者观察到人类对 HOI 的判断依赖三类线索——目标实例内部视觉特征、与其他实例的关系、以及周围场景信息——因此设计了实例中心的多上下文挖掘方案。
核心 idea：通过掩码自注意力从 VLM 特征中分别提取实例内/实例间/全局三类上下文，再渐进式融合到检测器查询中。

方法详解¶

整体框架¶

InCoM-Net 采用双分支架构：（1）DETR 检测器分支提取实例级特征 \(q^l\)；（2）CLIP 视觉编码器提取 VLM 特征 \(V^l\)。核心模块为 Instance-centric Context Mining，包含 ICR（实例中心上下文精炼）和 ProCA（渐进式上下文聚合）两个子模块，跨 \(L\) 层迭代处理。最终通过 HO Pair Generator 构建人-物对特征，送入交互解码器完成 HOI 分类。

关键设计¶

Instance-centric Context Refinement (ICR):
- 功能：从 VLM 特征中为每个实例分别生成三类上下文特征
- 核心思路：对 VLM 特征 \(V^l\) 应用掩码自注意力。为第 \(i\) 个实例构建实例掩码 \(M_i^R\)（标记该实例区域）和周围掩码 \(M_i^C\)（其他实例的并集）。无掩码的自注意力输出全局上下文 \(G^l\)，用 \(M_i^R\) 限制的自注意力输出实例内上下文 \(R_i^l\)，用 \(M_i^C\) 限制的自注意力输出实例间上下文 \(C_i^l\)。三类输出各自经 FFN 编码。
- 设计动机：不同层次的上下文提供互补信息——实例内特征捕捉目标外观，实例间特征建模物体关系，全局特征提供场景语境。分别编码可保留语义多样性。
Progressive Context Aggregation (ProCA):
- 功能：将 ICR 产生的多上下文特征渐进式融合到检测器查询特征中
- 核心思路：将检测器查询 \(q_i^l\) 与上一层聚合特征 \(f_i^{l-1}\) 相加作为查询，分别对 \(G^l\)、\(R_i^l\)、\(C_i^l\) 做交叉注意力，得到三个输出后拼接经 FFN 生成当前层聚合特征 \(f_i^l\)。此过程跨 \(L\) 层迭代，每层使用不同 VLM 层的特征。
- 设计动机：渐进式多层聚合使模型能逐步整合不同语义层次的 VLM 信息，增强实例外观与上下文间的对齐。
Masked Feature Training (MFT):
- 功能：平衡 VLM 和检测器两种异构特征的利用
- 核心思路：训练时等概率构建三种输入配置——完整输入（VLM+检测器）、仅检测器、仅 VLM。被遮蔽的分支特征置零且对应交叉注意力停用。最终损失为三种配置的 focal loss 之和。
- 设计动机：两种异构特征来源容易导致模型过度依赖单一来源。随机遮蔽迫使模型学会在不同条件下利用互补信息，提升鲁棒性。

损失函数 / 训练策略¶

交互分类采用 focal loss
三种掩码配置（full/detector-only/VLM-only）各自产生 focal loss，总损失为三者之和
DETR 和 CLIP 均冻结不训练，仅训练 ICR、ProCA、HO Pair Generator 及交互解码器
使用 AdamW 优化器，初始学习率 \(10^{-4}\)，每 10 epoch 衰减 5 倍，30 epoch 完成训练

实验关键数据¶

主实验¶

数据集	指标	InCoM-Net (ViT-L)	NMSR (prev SOTA)	提升
HICO-DET	Full mAP	43.96	42.93	+1.03
HICO-DET	Rare mAP	45.61	42.41	+3.20
HICO-DET	Non-rare mAP	43.46	43.11	+0.35
V-COCO	AP_role^S1	73.6	69.8	+3.8
V-COCO	AP_role^S2	75.4	72.1	+3.3

ViT-B 版本：HICO-DET Full 39.53（超 HORP +0.92），V-COCO S1 72.2（超 SCTC +5.1）。

消融实验¶

配置	Full mAP	Rare mAP	说明
Baseline（无 ICR/ProCA）	36.17	33.11	仅检测器特征
+ ICR	37.42	34.47	+1.25，多上下文有效
+ ProCA	38.42	36.80	+1.00，渐进聚合有效
+ MFT	39.53	38.87	+1.11，平衡异构特征

多上下文类型消融（在 ICR+ProCA 上）：

上下文配置	Full mAP	Rare mAP
仅 V（原始 VLM）	38.30	37.31
+ G（全局）	38.65	36.76
+ R（实例内）	39.19	38.78
+ C（实例间）	39.53	38.87

关键发现¶

MFT 贡献最大（+1.11 mAP），尤其在 Rare 类上提升 +2.07，说明平衡异构特征对低频交互至关重要
实例内上下文 \(R\) 对 Rare 类贡献最显著（+2.02），表明细粒度实例信息对罕见交互推理尤为关键
零样本设置下 InCoM-Net 同样 SOTA，RF-UC 和 NF-UC 的 Unseen 分别达到 37.69/39.45（ViT-L），显示出强泛化能力
ProCA 层数在 3 层时性能最优，更多层的增益趋于饱和

亮点与洞察¶

实例级多上下文分解：通过掩码机制从共享 VLM 特征中自适应提取三类上下文，既简洁又有效。将上下文按语义角色分离后再融合，比直接使用全局 VLM 特征更能捕捉细粒度关系。
MFT 策略：随机遮蔽异构特征源的训练策略令人惊喜——类似 dropout 的思想被创造性地应用到多模态特征融合中，有效防止模型过度依赖单一来源。
迁移潜力：这种实例中心的多上下文挖掘思路可迁移到场景图生成、关系推理等需要实例间关系建模的任务中。

局限与展望¶

DETR 和 CLIP 均冻结，限制了端到端优化的潜力；可探索部分微调 VLM 编码器
掩码来源依赖检测器的检测质量，漏检或错检会影响上下文的准确性
仅考虑静态图像上下文，未利用动作的时序线索（如视频 HOI）
三种掩码配置等概率训练，可探索自适应采样策略

评分¶

新颖性: ⭐⭐⭐⭐ 实例级多上下文分解思路新颖，MFT 策略有创意，但基本框架仍是 DETR+CLIP 双分支
实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、regular+zero-shot、详细消融、可视化，非常充分
写作质量: ⭐⭐⭐⭐ 结构清晰，图示直观，动机推导连贯
价值: ⭐⭐⭐⭐ HOI 检测 SOTA，方法设计可迁移到其他关系推理任务