Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection¶
会议: CVPR 2026
arXiv: 2604.02071
代码: https://github.com/nowuss/InCoM-Net
领域: 目标检测 / 人物交互检测
关键词: 人物交互检测, 视觉语言模型, 实例级上下文, 多上下文特征, 注意力机制
一句话总结¶
提出 InCoM-Net,通过从 VLM 特征中为每个实例分别提取实例内、实例间和全局三层上下文特征,并通过渐进式上下文聚合与检测器特征融合,在 HICO-DET 和 V-COCO 上取得 HOI 检测 SOTA(HICO-DET Full mAP 43.96,V-COCO AP_role^S1 73.6)。
研究背景与动机¶
- 领域现状:HOI 检测旨在定位图像中的人-物对并分类其交互关系,是视觉理解的基础任务。近年来基于 Transformer 和 VLM(如 CLIP、BLIP)的方法显著提升了性能。
- 现有痛点:现有 VLM 集成方法要么仅使用场景级 VLM 特征作为全局语义先验(如 HOICLIP、UniHOI),要么通过 RoI 对齐将 VLM 特征局限在物体边界框内(如 ADA-CM、BCOM),无法充分挖掘场景中分布在不同层次的上下文线索。
- 核心矛盾:HOI 推理需要同时理解目标实例自身的视觉线索、与周围实例的关系、以及全局场景语境,但现有方法对所有实例统一施加上下文信息,缺乏实例特异性的上下文建模。
- 本文目标 如何从 VLM 特征中为每个实例提取多层次的上下文信息,并有效融合到检测器的实例特征中。
- 切入角度:作者观察到人类对 HOI 的判断依赖三类线索——目标实例内部视觉特征、与其他实例的关系、以及周围场景信息——因此设计了实例中心的多上下文挖掘方案。
- 核心 idea:通过掩码自注意力从 VLM 特征中分别提取实例内/实例间/全局三类上下文,再渐进式融合到检测器查询中。
方法详解¶
整体框架¶
InCoM-Net 采用双分支架构:(1)DETR 检测器分支提取实例级特征 \(q^l\);(2)CLIP 视觉编码器提取 VLM 特征 \(V^l\)。核心模块为 Instance-centric Context Mining,包含 ICR(实例中心上下文精炼)和 ProCA(渐进式上下文聚合)两个子模块,跨 \(L\) 层迭代处理。最终通过 HO Pair Generator 构建人-物对特征,送入交互解码器完成 HOI 分类。
关键设计¶
-
Instance-centric Context Refinement (ICR):
- 功能:从 VLM 特征中为每个实例分别生成三类上下文特征
- 核心思路:对 VLM 特征 \(V^l\) 应用掩码自注意力。为第 \(i\) 个实例构建实例掩码 \(M_i^R\)(标记该实例区域)和周围掩码 \(M_i^C\)(其他实例的并集)。无掩码的自注意力输出全局上下文 \(G^l\),用 \(M_i^R\) 限制的自注意力输出实例内上下文 \(R_i^l\),用 \(M_i^C\) 限制的自注意力输出实例间上下文 \(C_i^l\)。三类输出各自经 FFN 编码。
- 设计动机:不同层次的上下文提供互补信息——实例内特征捕捉目标外观,实例间特征建模物体关系,全局特征提供场景语境。分别编码可保留语义多样性。
-
Progressive Context Aggregation (ProCA):
- 功能:将 ICR 产生的多上下文特征渐进式融合到检测器查询特征中
- 核心思路:将检测器查询 \(q_i^l\) 与上一层聚合特征 \(f_i^{l-1}\) 相加作为查询,分别对 \(G^l\)、\(R_i^l\)、\(C_i^l\) 做交叉注意力,得到三个输出后拼接经 FFN 生成当前层聚合特征 \(f_i^l\)。此过程跨 \(L\) 层迭代,每层使用不同 VLM 层的特征。
- 设计动机:渐进式多层聚合使模型能逐步整合不同语义层次的 VLM 信息,增强实例外观与上下文间的对齐。
-
Masked Feature Training (MFT):
- 功能:平衡 VLM 和检测器两种异构特征的利用
- 核心思路:训练时等概率构建三种输入配置——完整输入(VLM+检测器)、仅检测器、仅 VLM。被遮蔽的分支特征置零且对应交叉注意力停用。最终损失为三种配置的 focal loss 之和。
- 设计动机:两种异构特征来源容易导致模型过度依赖单一来源。随机遮蔽迫使模型学会在不同条件下利用互补信息,提升鲁棒性。
损失函数 / 训练策略¶
- 交互分类采用 focal loss
- 三种掩码配置(full/detector-only/VLM-only)各自产生 focal loss,总损失为三者之和
- DETR 和 CLIP 均冻结不训练,仅训练 ICR、ProCA、HO Pair Generator 及交互解码器
- 使用 AdamW 优化器,初始学习率 \(10^{-4}\),每 10 epoch 衰减 5 倍,30 epoch 完成训练
实验关键数据¶
主实验¶
| 数据集 | 指标 | InCoM-Net (ViT-L) | NMSR (prev SOTA) | 提升 |
|---|---|---|---|---|
| HICO-DET | Full mAP | 43.96 | 42.93 | +1.03 |
| HICO-DET | Rare mAP | 45.61 | 42.41 | +3.20 |
| HICO-DET | Non-rare mAP | 43.46 | 43.11 | +0.35 |
| V-COCO | AP_role^S1 | 73.6 | 69.8 | +3.8 |
| V-COCO | AP_role^S2 | 75.4 | 72.1 | +3.3 |
ViT-B 版本:HICO-DET Full 39.53(超 HORP +0.92),V-COCO S1 72.2(超 SCTC +5.1)。
消融实验¶
| 配置 | Full mAP | Rare mAP | 说明 |
|---|---|---|---|
| Baseline(无 ICR/ProCA) | 36.17 | 33.11 | 仅检测器特征 |
| + ICR | 37.42 | 34.47 | +1.25,多上下文有效 |
| + ProCA | 38.42 | 36.80 | +1.00,渐进聚合有效 |
| + MFT | 39.53 | 38.87 | +1.11,平衡异构特征 |
多上下文类型消融(在 ICR+ProCA 上):
| 上下文配置 | Full mAP | Rare mAP |
|---|---|---|
| 仅 V(原始 VLM) | 38.30 | 37.31 |
| + G(全局) | 38.65 | 36.76 |
| + R(实例内) | 39.19 | 38.78 |
| + C(实例间) | 39.53 | 38.87 |
关键发现¶
- MFT 贡献最大(+1.11 mAP),尤其在 Rare 类上提升 +2.07,说明平衡异构特征对低频交互至关重要
- 实例内上下文 \(R\) 对 Rare 类贡献最显著(+2.02),表明细粒度实例信息对罕见交互推理尤为关键
- 零样本设置下 InCoM-Net 同样 SOTA,RF-UC 和 NF-UC 的 Unseen 分别达到 37.69/39.45(ViT-L),显示出强泛化能力
- ProCA 层数在 3 层时性能最优,更多层的增益趋于饱和
亮点与洞察¶
- 实例级多上下文分解:通过掩码机制从共享 VLM 特征中自适应提取三类上下文,既简洁又有效。将上下文按语义角色分离后再融合,比直接使用全局 VLM 特征更能捕捉细粒度关系。
- MFT 策略:随机遮蔽异构特征源的训练策略令人惊喜——类似 dropout 的思想被创造性地应用到多模态特征融合中,有效防止模型过度依赖单一来源。
- 迁移潜力:这种实例中心的多上下文挖掘思路可迁移到场景图生成、关系推理等需要实例间关系建模的任务中。
局限与展望¶
- DETR 和 CLIP 均冻结,限制了端到端优化的潜力;可探索部分微调 VLM 编码器
- 掩码来源依赖检测器的检测质量,漏检或错检会影响上下文的准确性
- 仅考虑静态图像上下文,未利用动作的时序线索(如视频 HOI)
- 三种掩码配置等概率训练,可探索自适应采样策略
相关工作与启发¶
- vs BCOM (CVPR24): BCOM 用双分支分别编码 RoI 特征和 VLM 特征,但缺乏实例间上下文建模。InCoM-Net 通过 ICR 统一提取多层次上下文,性能超 BCOM +4.62 mAP(ViT-L)。
- vs ADA-CM (ICCV23): ADA-CM 通过 adapter 注入检测信号并做 RoI 池化,但对所有实例使用统一上下文。InCoM-Net 的实例特异性上下文建模是关键差异。
- vs NMSR (ICCV25): 前 SOTA,InCoM-Net 在 HICO-DET 上超 +1.03,在 V-COCO 上超 +3.8,优势主要来自多上下文精炼和渐进聚合。
评分¶
- 新颖性: ⭐⭐⭐⭐ 实例级多上下文分解思路新颖,MFT 策略有创意,但基本框架仍是 DETR+CLIP 双分支
- 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、regular+zero-shot、详细消融、可视化,非常充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图示直观,动机推导连贯
- 价值: ⭐⭐⭐⭐ HOI 检测 SOTA,方法设计可迁移到其他关系推理任务
相关论文¶
- [CVPR 2026] Saliency-R1: Enforcing Interpretable and Faithful Vision-language Reasoning via Saliency-map Alignment Reward
- [ICML 2025] UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction
- [CVPR 2026] Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models
- [CVPR 2026] ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation
- [CVPR 2026] PHAC: Promptable Human Amodal Completion