RegFormer: Transferable Relational Grounding for Efficient Weakly-Supervised HOI Detection¶

会议: CVPR 2026
arXiv: 2604.00507
代码: https://github.com/mlvlab/RegFormer
领域: 人体理解
关键词: 人-物交互检测, 弱监督, 关系接地, 交互性学习, 零样本迁移

一句话总结¶

RegFormer 提出一个轻量级关系接地 Transformer 模块，在仅图像级标注的弱监督下，通过空间接地查询和交互性感知学习，直接从图像级推理迁移到实例级 HOI 检测，无需额外训练，性能接近全监督方法。

HOI 检测需要定位人和物体并识别它们的交互关系。全监督方法需要为每对人-物标注交互标签，成本极高。弱监督方法只使用图像级标注（哪些 HOI 三元组出现在图像中），但面临两个关键问题。

计算效率：现有方法需要枚举所有人-物对并分别处理，对数增加时计算成本剧增。假阳性：非交互的人-物组合产生大量假阳性，干扰准确的实例级推理。

图像级训练阶段：RegFormer 从空间特征图中构建空间接地的 HO 查询 → 成对实例编码器 → 交互解码器预测交互。实例级推理阶段：利用外部检测器提供的实例约束 HO 查询构建和交互性评分，直接迁移到实例级 HOI 检测。

空间接地查询:
- 功能：从空间特征图中构建包含空间关系线索的 HO 查询对
- 核心思路：将 CLIP 空间特征图作为基础，HO 查询通过聚合人-物对相关区域的特征构建。这使查询天然包含空间信息，模型隐式学习到交互所需的空间关系
- 设计动机：直接使用检测器的实例特征会使分类器与检测器强耦合，更换检测器就要重新训练
交互性感知学习:
- 功能：学习每对人-物的交互性得分，抑制非交互组合
- 核心思路：引入隐式的定位信号，学习每对人-物是否真的在交互。该得分作为显式的"门控"机制，在推理时过滤非交互对，减少假阳性
- 设计动机：弱监督设置中最大的噪声来源就是非交互的人-物组合
图像级到实例级的零样本迁移:
- 功能：无需额外训练即可从图像级推理迁移到实例级检测
- 核心思路：推理时，用外部检测器的人/物实例约束 HO 查询构建和交互性评分区域。由于训练时已学到空间接地的交互线索，这些线索可以直接用于区分不同实例对
- 设计动机：避免弱监督到强监督的额外适配步骤

多标签分类损失（图像级）+ 交互性评分的正则化。仅使用图像级 HOI 三元组标注训练。

方法	监督	HICO-DET mAP	V-COCO AP	推理效率
全监督 SOTA	全	高	高	—
之前弱监督 SOTA	弱	中	中	慢
RegFormer	弱	接近全监督	接近全监督	高效

RegFormer 以弱监督达到接近全监督的性能，且推理效率远优于之前的弱监督方法。