跳转至

Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning

会议: AAAI 2026
arXiv: 2511.19516
代码: https://github.com/loiqy/GroundingAgent
领域: 多模态VLM / Agent
关键词: Visual Grounding, Training-Free, Agentic Reasoning, Chain-of-Thought, Open-Vocabulary Detection

一句话总结

提出 GroundingAgent,一个完全不需要任务特定微调的视觉定位框架,通过组合预训练的开放词汇检测器(YOLO World)、MLLM(Llama-3.2-11B-Vision)和 LLM(DeepSeek-V3)进行结构化迭代推理,在 RefCOCO/+/g 上实现 65.1% 的零样本平均准确率,大幅超越之前的 zero-shot 方法。

背景与动机

视觉定位(Visual Grounding)要求将自然语言描述与图像中的特定区域对应起来,是视觉-语言交互的基础任务。现有方法的痛点:

  1. 数据依赖严重:传统 VG 方法依赖大量精标的图像-文本区域对应标注进行训练/微调,标注成本远高于图像级 caption
  2. 泛化能力受限:在预定义类别上训练的模型无法很好地迁移到开放世界场景,面对新颖或 OOD 概念时表现下降
  3. MLLM 定位能力弱:虽然 GPT-4o 等 MLLM 在 captioning 和 VQA 上表现优异,但直接预测 bounding box 的能力很差(如 Figure 1 所示 GPT-4o 错误地选了 pitcher 而非目标)
  4. Grounding DINO 等检测器虽然定位准确,但缺乏深层语义推理能力,尤其在涉及空间关系、属性描述等复杂查询时容易出错

核心洞察:检测器擅长 "在哪里"(定位),LLM 擅长 "是什么"(语义推理),MLLM 擅长 "看到了什么"(视觉描述)——将三者的互补能力通过 agent pipeline 串联即可实现无需训练的视觉定位。

核心问题

如何在完全不使用任何 VG 任务标注的前提下,仅利用预训练模型的能力组合实现高质量的视觉定位?核心挑战在于:(1)如何从文本查询生成覆盖率高的候选区域;(2)如何从候选区域中准确地选出与查询最匹配的目标。

方法详解

整体框架

GroundingAgent 是一个两阶段 pipeline:候选生成(Candidate Generation)→ 候选选择(Candidate Selection)

  • 输入:图像 \(I\) + 自然语言查询 \(Q\)
  • 输出:预测的 bounding box \(\mathbf{b}_{pred}\)

整体流程: 1. MLLM 生成图像的全局描述 \(C(I)\) 2. LLM 根据查询 \(Q\) 和全局描述推断候选目标概念集合 \(\mathcal{C}\)(如 "the white chair by the fireplace" → chair, fireplace, furniture 等) 3. 开放词汇检测器对每个概念进行检测,生成候选 bounding box 集合 4. NMS 去重 + 按面积排序,过滤掉小于图像面积 2.5% 的框,保留 top-10 候选 5. MLLM 对每个候选区域生成细粒度语义描述 6. LLM 结合全局上下文、查询和候选描述,通过 CoT 推理逐一判断每个候选是否匹配查询

关键设计

  1. 全局 Caption 引导的概念生成:不是直接用查询文本送检测器,而是先用 MLLM 生成全局图像描述,再将查询+描述拼接后用 LLM 提取多个相关名词概念。实验证明加入 global caption 能显著提高候选召回率(对比仅用 query 的情况)。这一步很聪明——把 "理解查询在说什么" 和 "图像里有什么" 两个信息源融合,避免 LLM 凭空发散。

  2. 视觉提示增强的区域描述:对每个候选区域,用红色边框标出并模糊背景后送 MLLM 生成描述。这种 visual prompting 策略引导 MLLM 聚焦于特定区域而非整张图。区域描述包含视觉属性和上下文线索。

  3. CoT 驱动的Agentic选择:LLM 不是简单地 one-shot 判断,而是生成中间推理步骤(平均 3.4 步),逐步分析每个候选与查询的语义和空间关系。输出是二值判断 \(r_i \in \{0, 1\}\),且约束为 one-hot(RefCOCO 只需选一个)。推理过程可解释,LLM 会明确说明接受/拒绝每个候选的原因。

  4. Self-Consistency 多次采样(Appendix C):对每个候选区域让 MLLM 采样 5 次描述,再用 LLM 聚合得到一致性描述。这一步将 RefCOCO-val 准确率从 67.1% 提升到 68.5%,验证了 caption 噪声是主要误差来源。

损失函数 / 训练策略

无需训练,完全 training-free。所有模块(检测器、MLLM、LLM)都使用预训练权重直接推理。

实验关键数据

主实验:零样本 REC 性能对比

方法 Zero-shot RefCOCO val RefCOCO testA RefCOCO testB RefCOCO+ val RefCOCO+ testA RefCOCO+ testB RefCOCOg val RefCOCOg test Avg
Pseudo-Q 56.0 58.3 54.1 38.9 45.1 32.1 49.8 47.4 47.7
Grounding-DINO 50.4 57.2 43.2 51.4 57.6 45.8 67.5 67.1 55.0
Kosmos-2 52.3 57.4 47.3 45.5 50.7 42.2 60.6 61.7 52.2
GroundingAgent (Ours) 67.1 73.3 60.1 62.4 67.6 53.8 67.9 68.8 65.1

候选生成阶段的检测器召回率

检测器 RefCOCO val RefCOCO testA RefCOCO testB Avg
APE 98.6 98.7 97.9 98.3
GroundingDINO 98.3 98.7 97.6 98.2
OWL-ViT 95.7 96.3 92.6 94.9
YOLO-World 94.4 96.7 91.1 93.8

Caption 替换实验(上界分析)

策略 Avg
MLLM 生成的 Caption 65.1
Query + Caption 85.0
直接用原始 Query 90.6

LLM 消融

LLM RefCOCO testA RefCOCO testB
DeepSeek-V3 73.3 60.1
DeepSeek-R1 75.9 60.3
Llama3.1-8B 55.0 44.0
DeepSeek-R1-Llama-8B 59.7 47.7
Qwen2.5-7B 52.0 41.6

分割扩展(+SAM)

数据集 mIoU
RefCOCO-val 57.3
RefCOCO+-val 51.2
RefCOCOg-val 56.5

消融实验要点

  • MLLM Caption 质量是最大瓶颈:将 caption 替换为原始 query 后准确率从 65.1% 飙升至 90.6%,接近有监督 SOTA(Qwen2.5-VL 90.3%)。这说明 LLM 推理本身没问题,损失主要来自 MLLM 生成描述时的幻觉和不精确。
  • 推理能力比模型大小更重要:DeepSeek-R1-Llama-8B 比基础 Llama3.1-8B 高 4-5 个点,参数量相同但推理训练带来显著增益。
  • 全局 caption 对候选生成至关重要:去掉 caption 后召回率显著下降。
  • Self-Consistency 采样有效:5 次采样 + LLM 聚合将 val 准确率提高 1.4%(67.1→68.5)。
  • 稳定性好:三次独立运行的标准差约 0.55%。
  • 拒绝率很低:RefCOCO+ 上 0.73-1.69%,说明 agent 不会轻易"放弃"。

亮点

  • 系统设计思路非常清晰:将 VG 分解为 "生成概念→检测候选→描述区域→推理选择" 四步,每步都利用最擅长该子任务的预训练模型,模块化设计允许随时替换升级
  • 上界分析很有说服力:通过 caption→query 替换实验,精准定位了瓶颈在 MLLM 的描述质量而非 LLM 推理能力,这种 "oracle 分析" 的实验设计值得学习
  • 可解释性强:每个推理步骤都可视化,接受/拒绝每个候选都有明确理由,这在 agent 系统中很有价值
  • 真正的 zero-shot:不像 REG 等方法用合成标注隐式训练,GroundingAgent 完全不碰任何 grounding 标注

局限性 / 可改进方向

  • 性能与有监督方法仍有较大差距:65.1% vs 有监督 SOTA 84-90%,在实际应用中可能不够用
  • 推理效率低:每张图需要 MLLM 做全局描述 + N 个区域描述 + LLM 多步推理,延迟和成本较高(论文未报告推理时间,这是一个回避的问题)
  • MLLM Caption 幻觉问题未根本解决:self-consistency 只是 patch,论文也承认这是核心瓶颈
  • 小目标检测能力受限:过滤掉 < 2.5% 面积的框,对小目标定位不利
  • 仅在 RefCOCO 系列评测:缺少在更多样化数据集(如 Flickr30K Entities、PhraseCut)上的验证
  • 依赖闭源或大型 LLM:默认用 DeepSeek-V3,换成小模型(Llama-8B、Qwen-7B)后性能大幅下降,实际部署受限

与相关工作的对比

  1. vs Grounding DINO:Grounding DINO 是端到端检测器,在 RefCOCO 上 zero-shot(不用 grounding 标注训练)平均 55.0%,GroundingAgent 高 10 个点。但 Grounding DINO 推理速度快几个数量级。
  2. vs ReCLIP / VGDiffZero:这些是之前的 training-free VG 方法,GroundingAgent 通过引入 LLM 推理能力实现 12-27% 的提升,核心差异在于使用了 agentic reasoning pipeline 而非简单的相似度匹配。
  3. vs GPT-4o 直接定位:GPT-4o 直接输出 bbox 时准确率很低(如 Figure 1),GroundingAgent 的核心观点是不要让 MLLM 直接定位,而是让检测器负责定位、LLM 负责推理选择。

启发与关联

  • Agent Pipeline 设计范式:这篇论文展示了一种在多模态任务中有效利用"工具组合"的 agent 设计范式——不要让一个模型做所有事,而是让每个模型做自己最擅长的事。这个思路可以迁移到其他需要定位+理解的任务(如 visual question answering with grounding、embodied navigation)
  • Caption 质量是 VLM Agent 的共性瓶颈:oracle 实验表明 LLM 推理能力本身已足够强(替换 caption 后达 90%+),瓶颈在于 MLLM 的视觉描述不够准确。这对所有依赖"先描述再推理"的 VLM agent 系统都是一个警示
  • 推理能力 > 参数规模:DeepSeek-R1 系列的实验结果表明,通过推理训练(如 reward model、GRPO)提升 LLM 的结构化推理能力比单纯增大模型更有效。这与当前 reasoning model 的大趋势一致

评分

  • 新颖性: ⭐⭐⭐ 将已有组件(检测器+MLLM+LLM)通过 agent pipeline 串联的思路并非全新,但在 VG 任务上的具体设计和上界分析比较有价值
  • 实验充分度: ⭐⭐⭐⭐ 消融全面,oracle 分析、LLM 消融、检测器消融、self-consistency、分割扩展、失败分析都有,但缺少推理效率数据和更多数据集验证
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,问题定义准确,实验分析有深度,但部分内容在正文和附录间重复
  • 价值: ⭐⭐⭐ 作为 training-free baseline 有参考意义,但 65.1% 的绝对性能和高推理成本限制了实用价值;最大贡献是证明了 "caption 是瓶颈" 这一洞察