Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition¶

会议: ICLR 2026
arXiv: 2602.15124
代码: https://github.com/SY-Xuan/DA-HOI
作者: Shiyu Xuan, Dongkai Wang, Zechao Li, Jinhui Tang
领域: 目标检测
关键词: HOI detection, zero-shot, MLLM, interaction recognition, detector-agnostic

一句话总结¶

提出将目标检测与交互识别完全解耦的零样本 HOI 检测框架 DA-HOI，利用 MLLM 的 VQA 能力替代传统 CLIP 特征做交互识别，核心贡献是确定性生成（training-free 即达 31.50 mAP）、空间感知池化（引入空间先验和跨注意力）和单次确定性匹配（M 次前向变 1 次），在 HICO-DET 四种零样本设定下全面超越 SOTA，且训练后可即插即用切换任意检测器。

研究背景与动机¶

领域现状：HOI 检测要求同时定位人和物体、识别它们之间的交互关系。近年基于 CLIP 的零样本方法（GEN-VLKT、HOICLIP、ADA-CM、LAIN 等）通过文本嵌入构建交互分类器取得初步进展，但性能瓶颈仍然明显。

现有痛点：

CLIP 特征分辨力不足：CLIP 擅长类别级对齐，但对"holding a cup"和"lifting a cup"这类视觉相似交互缺乏细粒度区分能力，必须额外融合检测器特征补偿

检测器-交互识别耦合严重：包括 ADA-CM、BCOM 等两阶段方法在内，交互识别模块都依赖特定检测器的特征或物体间关系建模（如 UPT），更换检测器即需重新训练——BCOM 换 Grounding-DINO 后 Full mAP 从 33.74 暴跌至 20.31

泛化天花板低：基于 CLIP 的方法本质上只在训练类别上对齐视觉和文本特征，对 Unseen Verb/Object 类别泛化困难

核心矛盾：开放词汇检测器已能较好地定位未见物体，真正瓶颈在交互识别——而交互识别恰恰被绑在了特定检测器上。

本文切入角度：MLLM 在大规模图文对和指令跟随任务上训练，具备远超 CLIP 的跨模态泛化能力和细粒度理解能力。如果将 HOI 检测拆成两个独立流程——检测器负责定位、MLLM 负责交互识别——就可以各自利用最强模型，且模块间解耦带来即插即用的灵活性。

核心 idea：把交互识别建模为向 MLLM 提问的 VQA 任务，用确定性生成获取多标签置信度，用空间感知池化注入空间先验，用单次匹配消除重复推理开销。

方法详解¶

整体框架¶

DA-HOI 将 HOI 检测解耦为两个完全独立的阶段：

目标检测阶段：使用任意检测器（DETR / Grounding-DINO / Yolo-World）获取检测结果 $\{C^i, B^i\}_{i=1}^{N_{\text{det}}}$
交互识别阶段：将所有人类实例与物体实例配对，对每个人-物对 $(B_h, B_o, C_o)$ 构造 VQA prompt 送入 MLLM（Qwen2.5-VL），预测交互置信度

两阶段之间唯一的接口是边界框坐标和类别标签，不共享特征，因此训练后可自由更换检测器而无需重训。

关键设计¶

1. 确定性生成（Deterministic Generation）¶

功能：将 MLLM 的开放式文本生成转为确定性的多标签分类，解决格式错误和单输出偏差问题
核心思路：不让 MLLM 自由输出文本答案，而是对候选交互列表 $\Theta(C_o) = \{T_1, T_2, \dots, T_M\}$ 中的每个候选 $T_k$，计算 MLLM 在给定 prompt 条件下生成该候选的条件似然度作为置信分数： $$S_v[k] = p(T_k | I, Q) = \prod_{j=1}^{N} p(t[j] | T_k[<j], I, Q)$$
设计动机：直接用 MLLM 回答问题存在三大致命缺陷——(a) 格式错误率高达 36.78%（模型输出非标准格式）；(b) 单输出偏差严重，80.91% 的回答只包含一个交互（但 IR 是多标签问题）；(c) 无法得到 mAP 评价所需的置信度分数。确定性生成将这三个问题全部消除，格式错误率和单输出率均降为 0%
与之前方法区别：ADA-CM 等基于 CLIP 的方法计算视觉-文本相似度做分类，本文利用 MLLM 更强的跨模态理解能力，通过条件生成概率做分类。即使不做任何训练也达到 31.50 mAP，超越 ADA-CM 的 25.19

2. 空间感知池化（Spatial-Aware Pooling, SAP）¶

功能：整合外观特征和成对空间先验，增强交互特征的鲁棒性，同时过滤非交互对减少计算量
核心思路：分三步构建强交互特征——
- (a) 对 ROIAlign 得到的人/物特征 $f_h, f_o$ 通过 MLP 融合为初始交互特征 $f_{\text{inter}}$
- (b) 通过交叉注意力层从全局图像特征中聚合边界框外部的上下文信息，缓解检测框不准时的信息损失
- (c) 编码 7 维成对空间向量： $$U = [w_h h_h, w_o h_o, \frac{w_h}{h_h}, \frac{w_o}{h_o}, \text{IoU}(B_h, B_o), \frac{x_h - x_o}{w_h}, \frac{y_h - y_o}{h_h}]$$ 包含面积（区分大小物体）、宽高比（区分形状）、IoU（衡量人物重叠）、人到物方向（区分左右上下关系），经 MLP 投影后与交互特征加性融合
设计动机：ROIAlign 特征仅限边界框内，对框不准确（部分遮挡、背景干扰）的情况敏感；且忽略了人-物对的相对空间关系，而空间关系对区分"sit on chair"和"stand next to chair"至关重要。实验表明去掉空间编码 UO Full 降 1.62，去掉交叉注意力降 2.23
附加功能：基于交互特征训练一个线性分类器 $S_{\text{interactiveness}} = \sigma(\text{Linear}(f_{\text{inter}}))$，在推理时过滤非交互对，将推理时间从 569ms 降至 217ms

3. 单次确定性匹配（One-Pass Deterministic Matching, DM）¶

功能：将需要 M 次前向传播的交互分数计算压缩为单次前向传播
核心思路：在候选交互列表的每个候选后添加特殊 token <|hoi|>，将所有候选拼入一个 prompt 一次送入 LLM。提取每个特殊 token 的输出特征 $\hat{f}_{\text{hoi}}[k]$ 和交互特征 $\hat{f}_{\text{inter}}$，用余弦相似度替代条件生成概率： $$S_v[k] = \text{cosine}(\hat{f}_{\text{hoi}}[k], \hat{f}_{\text{inter}})$$
设计动机：确定性生成虽然效果好，但计算量与候选数 M 线性相关。以 HICO-DET 为例，单物体类别平均有 ~15 个候选交互，每对人-物需要 15 次 LLM 前向传播。DM 将生成问题转化为特征匹配，一次前向传播得到所有候选的分数
效率提升：SAP + DM 联合将推理时间从基线 569ms 降至 91ms（加速 6.3 倍）

训练策略¶

两阶段训练，视觉编码器始终冻结：

第一阶段：仅训练 SAP（30 epochs, lr=1e-4, batch=16），用 Binary Focal Loss 训练交互性预测和空间编码
第二阶段：冻结 SAP，仅用 LoRA 微调 LLM（16 epochs, lr=1e-4, batch=16），用 Focal BCE 训练确定性匹配

推理时最终置信度：$\hat{S}^i_v[k] = S^i_v[k] \cdot S^i_{\text{interactiveness}} \cdot S^i_h \cdot S^i_o$，融合交互分数、交互性分数和检测器置信度。所有实验在 4 张 RTX 3090 上完成。

实验关键数据¶

主实验：HICO-DET 零样本性能¶

方法	RF-UC Full	NF-UC Full	UO Full	UV Full	Avg Full
GEN-VLKT	30.56	23.71	25.63	28.74	27.16
HOICLIP	32.99	27.75	28.53	31.09	30.09
CLIP4HOI	34.08	28.90	32.58	30.42	31.50
LAIN	34.41	33.23	34.27	33.12	33.76
EZ-HOI	36.73	34.84	36.38	36.84	36.20
BC-HOI (BLIP2)	40.99	36.40	34.18	39.89	37.87
DA-HOI (Ours)	43.56	40.33	43.60	42.88	42.59
Ours + Grounding-DINO	44.81	41.51	45.28	44.43	44.00
Ours + Yolo-World	44.00	42.01	44.82	43.88	43.68
ADA-CM (training-free)	-	-	25.19	25.19	25.19
Ours (training-free)	-	-	31.50	31.50	31.50

消融实验：组件贡献 & 推理效率¶

配置	UO Full	UV Full	推理时间 (ms/图)
Baseline (SFT + Det. Gen.)	39.24	37.84	569
+ SAP only	42.31	41.95	217
+ DM only	40.50	39.24	189
+ SAP + DM (Full)	43.60	42.88	91
Full − Pairwise Spatial	41.98	40.77	86
Full − Cross Attention	41.37	40.74	87
替换 SAP 为 UPT	41.76	40.58	122

关键发现¶

确定性生成是最关键设计：training-free 设定下从简单 QA 的 14.23 mAP 提升到 31.50 mAP（+17.27），提升幅度超过所有微调组件之和。即使做了 SFT，不加确定性生成只有 31.61，加上后升至 39.87（+8.26）
SAP 是最强微调组件：UO Full +3.07，UV Full +4.11，同时推理加速 2.6 倍（569→217ms），效果和效率双丰收
DM 是高效加速器：SAP+DM 联合将推理从 217ms 降至 91ms，同时性能继续提升
MLLM 规模效应显著：LLaVA-0.5B (42.00) → Qwen-3B (43.60) → Qwen-7B (45.99)，证明方法可直接受益于更强 MLLM
跨数据集泛化突出：HICO-DET→V-COCO 达 59.91%，比第二名 BCOM (48.87) 高 11.04，超 CMMP 12.26 个百分点
候选顺序鲁棒：5 次不同排列推理 Full mAP 仅波动 ±0.02
LoRA 优于全量微调：LoRA 仅调 LLM 即达到甚至超过 Full Tuning 效果，证明 MLLM 的预训练知识值得保留

亮点与洞察¶

解耦设计是范式级创新：首次将 HOI 检测拆成完全独立的检测+识别模块，训练后换任意检测器无需重训。这让 HOI 检测"免费"享受检测器的进步（换用 Grounding-DINO 直接提分 1.41），可迁移到 scene graph generation 等组合式视觉理解任务
确定性生成巧妙弥合了生成式 MLLM 与判别式任务的鸿沟：用条件似然度代替文本生成，不改模型架构即将生成模型转为判别器。这一 trick 可直接迁移到任何需要用 MLLM 做多标签分类/排序的场景（如属性识别、动作分类）
SAP 设计优于广泛使用的 UPT：UPT 建模不同检测结果间的关系导致与检测器耦合，SAP 仅关注当前人-物对自身的空间关系和全局图像特征，保持解耦特性的同时性能更好

局限与展望¶

推理效率仍有优化空间：91ms/图≈11 FPS，对实时场景（自动驾驶、机器人）不够。可考虑 MLLM 知识蒸馏到轻量模型，或对多个人-物对做批量推理
暴力配对策略不够优雅：人-物配对数为 $O(N^2)$，密集场景冗余大。可学习配对先验或用空间启发式预筛选
候选交互列表需预定义：确定性生成/匹配依赖预定义的候选列表，对完全开放式交互发现（open-vocabulary interaction）的适用性有限
MLLM 部署成本高：即使最小的 Qwen2.5-VL 3B 也有 3B 参数，移动端部署需量化/蒸馏
训练数据多样性有限：仅在 HICO-DET（600 类 HOI、80 物体类别）上训练，对更开放的真实场景验证不足

评分¶

新颖性: ⭐⭐⭐⭐ 解耦框架 + 确定性生成是有实质创新的设计，但各子组件（ROIAlign、交叉注意力、LoRA）都是成熟技术
实验充分度: ⭐⭐⭐⭐⭐ 四种零样本设定 + 跨检测器 + 跨数据集 + training-free + 全监督 + 多 MLLM 消融 + 训练策略消融，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰、动机阐述到位，公式推导规范，部分 section 略有冗余
价值: ⭐⭐⭐⭐⭐ 提出 MLLM 时代 HOI 检测新范式，解耦设计具有很强的工程价值和学术影响力