Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning¶
会议: AAAI 2026
arXiv: 2511.19516
代码: https://github.com/loiqy/GroundingAgent
领域: 多模态VLM / Agent
关键词: Visual Grounding, Training-Free, Agentic Reasoning, Chain-of-Thought, Open-Vocabulary Detection
一句话总结¶
提出 GroundingAgent,一个完全不需要任务特定微调的视觉定位框架,通过组合预训练的开放词汇检测器(YOLO World)、MLLM(Llama-3.2-11B-Vision)和 LLM(DeepSeek-V3)进行结构化迭代推理,在 RefCOCO/+/g 上实现 65.1% 的零样本平均准确率,大幅超越之前的 zero-shot 方法。
背景与动机¶
视觉定位(Visual Grounding)要求将自然语言描述与图像中的特定区域对应起来,是视觉-语言交互的基础任务。现有方法的痛点:
- 数据依赖严重:传统 VG 方法依赖大量精标的图像-文本区域对应标注进行训练/微调,标注成本远高于图像级 caption
- 泛化能力受限:在预定义类别上训练的模型无法很好地迁移到开放世界场景,面对新颖或 OOD 概念时表现下降
- MLLM 定位能力弱:虽然 GPT-4o 等 MLLM 在 captioning 和 VQA 上表现优异,但直接预测 bounding box 的能力很差(如 Figure 1 所示 GPT-4o 错误地选了 pitcher 而非目标)
- Grounding DINO 等检测器虽然定位准确,但缺乏深层语义推理能力,尤其在涉及空间关系、属性描述等复杂查询时容易出错
核心洞察:检测器擅长 "在哪里"(定位),LLM 擅长 "是什么"(语义推理),MLLM 擅长 "看到了什么"(视觉描述)——将三者的互补能力通过 agent pipeline 串联即可实现无需训练的视觉定位。
核心问题¶
如何在完全不使用任何 VG 任务标注的前提下,仅利用预训练模型的能力组合实现高质量的视觉定位?核心挑战在于:(1)如何从文本查询生成覆盖率高的候选区域;(2)如何从候选区域中准确地选出与查询最匹配的目标。
方法详解¶
整体框架¶
GroundingAgent 是一个两阶段 pipeline:候选生成(Candidate Generation)→ 候选选择(Candidate Selection)。
- 输入:图像 \(I\) + 自然语言查询 \(Q\)
- 输出:预测的 bounding box \(\mathbf{b}_{pred}\)
整体流程: 1. MLLM 生成图像的全局描述 \(C(I)\) 2. LLM 根据查询 \(Q\) 和全局描述推断候选目标概念集合 \(\mathcal{C}\)(如 "the white chair by the fireplace" → chair, fireplace, furniture 等) 3. 开放词汇检测器对每个概念进行检测,生成候选 bounding box 集合 4. NMS 去重 + 按面积排序,过滤掉小于图像面积 2.5% 的框,保留 top-10 候选 5. MLLM 对每个候选区域生成细粒度语义描述 6. LLM 结合全局上下文、查询和候选描述,通过 CoT 推理逐一判断每个候选是否匹配查询
关键设计¶
-
全局 Caption 引导的概念生成:不是直接用查询文本送检测器,而是先用 MLLM 生成全局图像描述,再将查询+描述拼接后用 LLM 提取多个相关名词概念。实验证明加入 global caption 能显著提高候选召回率(对比仅用 query 的情况)。这一步很聪明——把 "理解查询在说什么" 和 "图像里有什么" 两个信息源融合,避免 LLM 凭空发散。
-
视觉提示增强的区域描述:对每个候选区域,用红色边框标出并模糊背景后送 MLLM 生成描述。这种 visual prompting 策略引导 MLLM 聚焦于特定区域而非整张图。区域描述包含视觉属性和上下文线索。
-
CoT 驱动的Agentic选择:LLM 不是简单地 one-shot 判断,而是生成中间推理步骤(平均 3.4 步),逐步分析每个候选与查询的语义和空间关系。输出是二值判断 \(r_i \in \{0, 1\}\),且约束为 one-hot(RefCOCO 只需选一个)。推理过程可解释,LLM 会明确说明接受/拒绝每个候选的原因。
-
Self-Consistency 多次采样(Appendix C):对每个候选区域让 MLLM 采样 5 次描述,再用 LLM 聚合得到一致性描述。这一步将 RefCOCO-val 准确率从 67.1% 提升到 68.5%,验证了 caption 噪声是主要误差来源。
损失函数 / 训练策略¶
无需训练,完全 training-free。所有模块(检测器、MLLM、LLM)都使用预训练权重直接推理。
实验关键数据¶
主实验:零样本 REC 性能对比¶
| 方法 | Zero-shot | RefCOCO val | RefCOCO testA | RefCOCO testB | RefCOCO+ val | RefCOCO+ testA | RefCOCO+ testB | RefCOCOg val | RefCOCOg test | Avg |
|---|---|---|---|---|---|---|---|---|---|---|
| Pseudo-Q | ✗ | 56.0 | 58.3 | 54.1 | 38.9 | 45.1 | 32.1 | 49.8 | 47.4 | 47.7 |
| Grounding-DINO | ✗ | 50.4 | 57.2 | 43.2 | 51.4 | 57.6 | 45.8 | 67.5 | 67.1 | 55.0 |
| Kosmos-2 | ✗ | 52.3 | 57.4 | 47.3 | 45.5 | 50.7 | 42.2 | 60.6 | 61.7 | 52.2 |
| GroundingAgent (Ours) | ✓ | 67.1 | 73.3 | 60.1 | 62.4 | 67.6 | 53.8 | 67.9 | 68.8 | 65.1 |
候选生成阶段的检测器召回率¶
| 检测器 | RefCOCO val | RefCOCO testA | RefCOCO testB | Avg |
|---|---|---|---|---|
| APE | 98.6 | 98.7 | 97.9 | 98.3 |
| GroundingDINO | 98.3 | 98.7 | 97.6 | 98.2 |
| OWL-ViT | 95.7 | 96.3 | 92.6 | 94.9 |
| YOLO-World | 94.4 | 96.7 | 91.1 | 93.8 |
Caption 替换实验(上界分析)¶
| 策略 | Avg |
|---|---|
| MLLM 生成的 Caption | 65.1 |
| Query + Caption | 85.0 |
| 直接用原始 Query | 90.6 |
LLM 消融¶
| LLM | RefCOCO testA | RefCOCO testB |
|---|---|---|
| DeepSeek-V3 | 73.3 | 60.1 |
| DeepSeek-R1 | 75.9 | 60.3 |
| Llama3.1-8B | 55.0 | 44.0 |
| DeepSeek-R1-Llama-8B | 59.7 | 47.7 |
| Qwen2.5-7B | 52.0 | 41.6 |
分割扩展(+SAM)¶
| 数据集 | mIoU |
|---|---|
| RefCOCO-val | 57.3 |
| RefCOCO+-val | 51.2 |
| RefCOCOg-val | 56.5 |
消融实验要点¶
- MLLM Caption 质量是最大瓶颈:将 caption 替换为原始 query 后准确率从 65.1% 飙升至 90.6%,接近有监督 SOTA(Qwen2.5-VL 90.3%)。这说明 LLM 推理本身没问题,损失主要来自 MLLM 生成描述时的幻觉和不精确。
- 推理能力比模型大小更重要:DeepSeek-R1-Llama-8B 比基础 Llama3.1-8B 高 4-5 个点,参数量相同但推理训练带来显著增益。
- 全局 caption 对候选生成至关重要:去掉 caption 后召回率显著下降。
- Self-Consistency 采样有效:5 次采样 + LLM 聚合将 val 准确率提高 1.4%(67.1→68.5)。
- 稳定性好:三次独立运行的标准差约 0.55%。
- 拒绝率很低:RefCOCO+ 上 0.73-1.69%,说明 agent 不会轻易"放弃"。
亮点¶
- 系统设计思路非常清晰:将 VG 分解为 "生成概念→检测候选→描述区域→推理选择" 四步,每步都利用最擅长该子任务的预训练模型,模块化设计允许随时替换升级
- 上界分析很有说服力:通过 caption→query 替换实验,精准定位了瓶颈在 MLLM 的描述质量而非 LLM 推理能力,这种 "oracle 分析" 的实验设计值得学习
- 可解释性强:每个推理步骤都可视化,接受/拒绝每个候选都有明确理由,这在 agent 系统中很有价值
- 真正的 zero-shot:不像 REG 等方法用合成标注隐式训练,GroundingAgent 完全不碰任何 grounding 标注
局限性 / 可改进方向¶
- 性能与有监督方法仍有较大差距:65.1% vs 有监督 SOTA 84-90%,在实际应用中可能不够用
- 推理效率低:每张图需要 MLLM 做全局描述 + N 个区域描述 + LLM 多步推理,延迟和成本较高(论文未报告推理时间,这是一个回避的问题)
- MLLM Caption 幻觉问题未根本解决:self-consistency 只是 patch,论文也承认这是核心瓶颈
- 小目标检测能力受限:过滤掉 < 2.5% 面积的框,对小目标定位不利
- 仅在 RefCOCO 系列评测:缺少在更多样化数据集(如 Flickr30K Entities、PhraseCut)上的验证
- 依赖闭源或大型 LLM:默认用 DeepSeek-V3,换成小模型(Llama-8B、Qwen-7B)后性能大幅下降,实际部署受限
与相关工作的对比¶
- vs Grounding DINO:Grounding DINO 是端到端检测器,在 RefCOCO 上 zero-shot(不用 grounding 标注训练)平均 55.0%,GroundingAgent 高 10 个点。但 Grounding DINO 推理速度快几个数量级。
- vs ReCLIP / VGDiffZero:这些是之前的 training-free VG 方法,GroundingAgent 通过引入 LLM 推理能力实现 12-27% 的提升,核心差异在于使用了 agentic reasoning pipeline 而非简单的相似度匹配。
- vs GPT-4o 直接定位:GPT-4o 直接输出 bbox 时准确率很低(如 Figure 1),GroundingAgent 的核心观点是不要让 MLLM 直接定位,而是让检测器负责定位、LLM 负责推理选择。
启发与关联¶
- Agent Pipeline 设计范式:这篇论文展示了一种在多模态任务中有效利用"工具组合"的 agent 设计范式——不要让一个模型做所有事,而是让每个模型做自己最擅长的事。这个思路可以迁移到其他需要定位+理解的任务(如 visual question answering with grounding、embodied navigation)
- Caption 质量是 VLM Agent 的共性瓶颈:oracle 实验表明 LLM 推理能力本身已足够强(替换 caption 后达 90%+),瓶颈在于 MLLM 的视觉描述不够准确。这对所有依赖"先描述再推理"的 VLM agent 系统都是一个警示
- 推理能力 > 参数规模:DeepSeek-R1 系列的实验结果表明,通过推理训练(如 reward model、GRPO)提升 LLM 的结构化推理能力比单纯增大模型更有效。这与当前 reasoning model 的大趋势一致
评分¶
- 新颖性: ⭐⭐⭐ 将已有组件(检测器+MLLM+LLM)通过 agent pipeline 串联的思路并非全新,但在 VG 任务上的具体设计和上界分析比较有价值
- 实验充分度: ⭐⭐⭐⭐ 消融全面,oracle 分析、LLM 消融、检测器消融、self-consistency、分割扩展、失败分析都有,但缺少推理效率数据和更多数据集验证
- 写作质量: ⭐⭐⭐⭐ 结构清晰,问题定义准确,实验分析有深度,但部分内容在正文和附录间重复
- 价值: ⭐⭐⭐ 作为 training-free baseline 有参考意义,但 65.1% 的绝对性能和高推理成本限制了实用价值;最大贡献是证明了 "caption 是瓶颈" 这一洞察