Locality-Aware Zero-Shot Human-Object Interaction Detection¶

会议: CVPR 2025
arXiv: 2505.19503
代码: http://cvlab.postech.ac.kr/research/LAIN (有)
领域: 视频理解
关键词: 零样本HOI检测, CLIP适配, 局部感知, 交互推理, 视觉语言模型

一句话总结¶

提出 LAIN 框架，通过局部适配器（LA）和交互适配器（IA）增强 CLIP 表示的局部细粒度感知和交互推理能力，在多种零样本 HOI 检测设定下达到 SOTA。

研究背景与动机¶

零样本 HOI 检测的目标是识别训练中未见过的人-物交互类别。现有方法普遍利用 CLIP 的泛化能力，但面临关键适配难题：

CLIP 偏向全局信息：其图像级预训练导致 CLIP 擅长编码全局语义，但在区域级任务中无法捕捉细粒度的局部细节。例如，CLIP 对"骑自行车"的判断不依赖于人是否真正在自行车区域上，而是基于整体场景
适配反而削弱泛化：现有方法在适配 CLIP 用于 HOI 检测时，unseen 类别性能甚至低于 CLIP 原始零样本性能（如 UC-RF 和 UV 设定下）
缺乏交互感知：仅知道物体的局部细节不够，还需理解人体与物体之间的交互模式（如"骑"vs"修"自行车取决于手与把手的关系）

方法详解¶

整体框架¶

LAIN 是一个两阶段 HOI 检测框架：

用预训练 DETR 检测图像中的目标
构建所有有效的人-物对，生成 HO tokens
HO tokens 与图像 patch tokens 一起通过 CLIP 视觉编码器的 \(L\) 层
在每层 CLIP 前端插入 LA 和 IA，增强局部和交互感知
最终 HO token 与文本嵌入计算余弦相似度得到 HOI 分数

关键设计¶

Locality Adapter (LA) — 增强 CLIP 的局部细粒度感知：
- 将 patch tokens \(F\) 投影到低维 \(\tilde{F} \in \mathbb{R}^{H \times W \times D_a}\)（\(D_a \ll D_{clip}\)）
- 构造空间布局嵌入 \(L_{i,j} = \text{FFN}([b_t; c_t; e_t])\)，整合检测框坐标、置信度和物体文本嵌入
- 使用多尺度卷积（不同核大小 \(k_n\)）聚合邻域信息：\(L^{k_n} = \text{Conv}^{k_n}(\hat{F})\), \(P = \text{FFN}(L^{k_1} + ... + L^{k_{N_c}})\)
- 通过可学习参数 \(\gamma_{LA}\) 融合回原始特征：\(F' = F + \gamma_{LA} \cdot \text{FFN}(P)\)
Interaction Adapter (IA) — 捕捉人-物交互模式：
- 用 ROIAlign 从更新后的 patch tokens \(F'\) 提取人体和物体区域特征 \(R_i^\tau\)
- Interaction Pattern Reasoning Module (IPRM)：通过可学习查询 \(Q\) 用交叉注意力提取交互相关上下文 \(\tilde{R}_i^\tau\)，再让人体/物体上下文互相注意 \(\hat{R}_i^h = \text{CrossAttn}(\tilde{R}_i^h, \tilde{R}_i^o, \tilde{R}_i^o)\)
- 将 HO token 投影为查询，从交互感知特征中提取信息并更新：\(T_i' = T_i + \gamma_{IA} \cdot \text{FFN}([\bar{R}_i^h; \bar{R}_i^o])\)
HOI 评分与文本匹配：
- 文本模板："A photo of a person [verb-ing] a [object]"，前端插入可学习 tokens
- HOI 分数：\(S = \text{Sigmoid}(T_{(L)} E^\top / \tau)\)，用 Sigmoid 而非 Softmax 因为一个人可同时与物体有多种交互
- 推理时融合检测器置信度：\(S_{infer} = S \cdot S_H^\lambda \cdot S_O^\lambda\)

损失函数 / 训练策略¶

采用 binary focal loss：\(\mathcal{L} = \text{FocalBCE}(S, Y)\)
IoU 阈值进行正样本分配
CLIP 视觉编码器冻结，仅训练 LA 和 IA 中的适配器参数（参数高效）

实验关键数据¶

主实验¶

零样本设定	指标 (Full mAP)	LAIN	LAIN† (ViT-L)	之前SOTA	提升
RF-UC	Full	34.41	38.13	33.17 (LogicHOI)	+1.24
NF-UC	Full	33.23	36.22	31.39 (ADA-CM)	+1.84
UO (Unseen Obj)	Full	34.27	37.60	28.53 (HOICLIP)	+5.74
UV (Unseen Verb)	Full	33.12	37.20	31.09 (HOICLIP)	+2.03
UC (Unseen Comp)	Full	34.36	36.81	32.11 (CLIP4HOI)	+2.25
HICO-DET 全监督	Full	36.02	-	35.33 (CLIP4HOI)	+0.69

消融实验¶

配置	Unseen	Seen	Full	说明
Baseline (无适配器)	24.88	31.06	30.19	无 LA/IA
+ LA only	27.71	32.55	31.95	局部感知有效
+ IA only	27.37	33.57	32.70	交互推理有效
+ LA + IA	30.50	34.80	33.95	协同效果最佳
LA: w/o 视觉信息	26.77	32.18	31.40	视觉上下文重要
LA: w/o 空间布局	26.52	32.07	31.31	空间先验重要
LA: Local Attention	26.46	32.39	31.56	不如卷积
IA: w/o IPRM	24.32	32.76	31.57	IPRM 关键
IA: w/o 上下文提取	25.64	32.41	31.40	过滤噪声有效

关键发现¶

LA 和 IA 互补：LA 提供细粒度物体细节，IA 利用这些细节进行交互推理。联合使用比各自单独提升更大（Unseen: +5.62 vs +2.83/+2.49）
现有方法适配 CLIP 反而降低泛化性：在 RF-UC 和 UV 设定下，多个方法在 unseen 类上不如 CLIP 原始性能
LAIN 用 ViT-B 已超越使用 ViT-L 的 BCOM†，说明方法层面的改进比纯增大模型更重要
在全监督设定下，LAIN 在稀有 HOI 类别上提升尤为显著（35.70），体现了强泛化能力
多尺度卷积比 Local/Window Attention 更适合捕捉邻域局部信息

亮点与洞察¶

问题定义精准：清晰指出 CLIP 适配 HOI 检测时全局编码与区域级任务的 gap，以及适配反而削弱泛化的反直觉现象
LA + IA 的互补设计优雅：LA 不改变 CLIP patch token 维度（通过残差连接），IA 不改变 HO token 维度，保证与冻结 CLIP 层的兼容
参数高效：仅在 CLIP 每层前插入轻量适配器，冻结 CLIP 主体，训练代价小
空间布局嵌入引入了检测器输出（框坐标+类别+置信度），无需额外标注

局限与展望¶

依赖预训练 DETR 的检测质量，漏检或误检会直接影响后续 HOI 检测
仅在图像级 HOI 检测上验证，未拓展到视频 HOI 或时序场景
卷积核大小选择（\(\mathbb{K}\)）需手动设定，可能依赖数据集特性
文本模板固定，可能限制在更开放词表场景的泛化
部分 zero-shot 设定的 unseen 类别数量有限，需更大规模验证

评分¶

新颖性: ⭐⭐⭐⭐ LA + IA 适配器设计新颖，问题分析深入
实验充分度: ⭐⭐⭐⭐⭐ 5种零样本设定 + 全监督 + 详尽消融
写作质量: ⭐⭐⭐⭐⭐ 动机图清晰, 公式规范, 逻辑严密
价值: ⭐⭐⭐⭐ CLIP 适配范式具有通用参考价值