HeROD: Heuristic-inspired Reasoning Priors Facilitate Data-Efficient Referring Object Detection¶

会议: CVPR 2026
arXiv: 2603.24166
代码: https://github.com/xuzhang1199/HeROD
领域: 目标检测
关键词: 指代目标检测, 数据高效学习, 推理先验, DETR, 少样本检测

一句话总结¶

HeROD 提出了一种轻量级、模型无关的框架，通过将启发式空间和语义推理先验注入 DETR 风格检测管道的三个阶段（候选排序、预测融合、匈牙利匹配），在标注稀缺条件下显著提升指代目标检测(ROD)的数据效率和收敛性能。

领域现状：指代目标检测(ROD)通过自然语言描述定位特定对象。现代基础检测器（如GLIP、Grounding DINO）在数据丰富场景下表现优异，但严重依赖大规模标注。
现有痛点：许多实际部署场景（机器人、AR、医疗影像）面临严重的标注稀缺。端到端基础检测器需要从零学习空间关系和视觉-语义关联，在数据稀缺时样本效率低、易过拟合。
核心矛盾：大规模预训练提供了广泛的视觉-语言对齐，但细粒度空间线索和复杂属性组合在预训练中代表不足——有限标注下模型需要"重新发现"这些基本概念。
本文目标：让模型在数据稀缺时聚焦于"精化"而非"重新发现"基本的空间和语义关系。
切入角度：类比 A* 启发式搜索——用启发式代价引导搜索向有希望的候选集中，避免盲目探索。
核心 idea：将显式的、可解释的空间和语义推理先验注入检测管道的候选排序、匹配和预测阶段，偏置训练和推理向合理候选倾斜。

HeROD 作为轻量级附加模块嵌入 DETR 风格管道。输入为图像和指代表达（如"左边穿红帽子的人"）。空间推理先验从表达中提取方位信息生成位置似然图；语义推理先验利用预训练VLM生成文本条件视觉分数。两种先验注入三个位置：候选提案排序、匈牙利匹配、最终预测融合。

空间推理先验 (Spatial Reasoning Priors):
- 功能：从指代表达中提取方位线索，生成空间位置似然图
- 核心思路：将方位关键词（"左边"、"上方"、"中间"等）映射为基本方向和简单组合的位置似然图。对图像中每个空间位置分配先验分数，不依赖任何学习，是完全可解释的规则。
- 设计动机：空间关系对消歧指代对象至关重要，显式注入可避免模型从零学习这些常识
语义推理先验 (Semantic Reasoning Priors):
- 功能：利用预训练VLM提供文本条件下的视觉语义分数
- 核心思路：用预训练的视觉-语言模型（如CLIP）计算指代表达与图像各区域的匹配分数，作为语义先验，反映区域与描述的语义相关性。
- 设计动机：VLM的零样本能力可提供粗粒度的语义指导，减少对标注数据的依赖
三阶段先验注入:
- 功能：在管道的关键决策点引导模型行为
- 核心思路：(1) 候选排序——用空间+语义先验对检测提案重排序，优先处理最可能的候选；(2) 匈牙利匹配——将先验分数融入匹配代价矩阵，使训练时的GT分配偏向先验一致的预测；(3) 预测融合——将先验分数与模型预测加权融合作为最终输出。三点注入同时影响训练和推理。
- 设计动机：在关键节点同时注入先验，最大化引导效果并加速收敛

数据集	设置	HeROD	基线(Grounding DINO)	提升
RefCOCO	低数据(10%)	显著提升	急剧下降	大幅改善
RefCOCO+	低数据(10%)	显著提升	急剧下降	大幅改善
RefCOCOg	低数据(10%)	显著提升	急剧下降	大幅改善
RefCOCO	少样本(few-shot)	持续提升	基线	一致改善
RefCOCO	全数据(100%)	有竞争力	基线	仍有轻微提升