Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning¶

会议: AAAI 2026
arXiv: 2511.19516
代码: https://github.com/loiqy/GroundingAgent
领域: 多模态VLM / Agent
关键词: Visual Grounding, Training-Free, Agentic Reasoning, Chain-of-Thought, Open-Vocabulary Detection

一句话总结¶

提出 GroundingAgent，一个完全不需要任务特定微调的视觉定位框架，通过组合预训练的开放词汇检测器（YOLO World）、MLLM（Llama-3.2-11B-Vision）和 LLM（DeepSeek-V3）进行结构化迭代推理，在 RefCOCO/+/g 上实现 65.1% 的零样本平均准确率，大幅超越之前的 zero-shot 方法。

背景与动机¶

视觉定位（Visual Grounding）要求将自然语言描述与图像中的特定区域对应起来，是视觉-语言交互的基础任务。现有方法的痛点：

数据依赖严重：传统 VG 方法依赖大量精标的图像-文本区域对应标注进行训练/微调，标注成本远高于图像级 caption
泛化能力受限：在预定义类别上训练的模型无法很好地迁移到开放世界场景，面对新颖或 OOD 概念时表现下降
MLLM 定位能力弱：虽然 GPT-4o 等 MLLM 在 captioning 和 VQA 上表现优异，但直接预测 bounding box 的能力很差（如 Figure 1 所示 GPT-4o 错误地选了 pitcher 而非目标）
Grounding DINO 等检测器虽然定位准确，但缺乏深层语义推理能力，尤其在涉及空间关系、属性描述等复杂查询时容易出错

核心洞察：检测器擅长 "在哪里"（定位），LLM 擅长 "是什么"（语义推理），MLLM 擅长 "看到了什么"（视觉描述）——将三者的互补能力通过 agent pipeline 串联即可实现无需训练的视觉定位。

核心问题¶

如何在完全不使用任何 VG 任务标注的前提下，仅利用预训练模型的能力组合实现高质量的视觉定位？核心挑战在于：（1）如何从文本查询生成覆盖率高的候选区域；（2）如何从候选区域中准确地选出与查询最匹配的目标。

方法详解¶

整体框架¶

GroundingAgent 是一个两阶段 pipeline：候选生成（Candidate Generation）→ 候选选择（Candidate Selection）。

输入：图像 \(I\) + 自然语言查询 \(Q\)
输出：预测的 bounding box \(\mathbf{b}_{pred}\)

整体流程： 1. MLLM 生成图像的全局描述 \(C(I)\) 2. LLM 根据查询 \(Q\) 和全局描述推断候选目标概念集合 \(\mathcal{C}\)（如 "the white chair by the fireplace" → chair, fireplace, furniture 等） 3. 开放词汇检测器对每个概念进行检测，生成候选 bounding box 集合 4. NMS 去重 + 按面积排序，过滤掉小于图像面积 2.5% 的框，保留 top-10 候选 5. MLLM 对每个候选区域生成细粒度语义描述 6. LLM 结合全局上下文、查询和候选描述，通过 CoT 推理逐一判断每个候选是否匹配查询

关键设计¶

全局 Caption 引导的概念生成：不是直接用查询文本送检测器，而是先用 MLLM 生成全局图像描述，再将查询+描述拼接后用 LLM 提取多个相关名词概念。实验证明加入 global caption 能显著提高候选召回率（对比仅用 query 的情况）。这一步很聪明——把 "理解查询在说什么" 和 "图像里有什么" 两个信息源融合，避免 LLM 凭空发散。
视觉提示增强的区域描述：对每个候选区域，用红色边框标出并模糊背景后送 MLLM 生成描述。这种 visual prompting 策略引导 MLLM 聚焦于特定区域而非整张图。区域描述包含视觉属性和上下文线索。
CoT 驱动的Agentic选择：LLM 不是简单地 one-shot 判断，而是生成中间推理步骤（平均 3.4 步），逐步分析每个候选与查询的语义和空间关系。输出是二值判断 \(r_i \in \{0, 1\}\)，且约束为 one-hot（RefCOCO 只需选一个）。推理过程可解释，LLM 会明确说明接受/拒绝每个候选的原因。
Self-Consistency 多次采样（Appendix C）：对每个候选区域让 MLLM 采样 5 次描述，再用 LLM 聚合得到一致性描述。这一步将 RefCOCO-val 准确率从 67.1% 提升到 68.5%，验证了 caption 噪声是主要误差来源。

损失函数 / 训练策略¶

无需训练，完全 training-free。所有模块（检测器、MLLM、LLM）都使用预训练权重直接推理。

实验关键数据¶

主实验：零样本 REC 性能对比¶

方法	Zero-shot	RefCOCO val	RefCOCO testA	RefCOCO testB	RefCOCO+ val	RefCOCO+ testA	RefCOCO+ testB	RefCOCOg val	RefCOCOg test	Avg
Pseudo-Q	✗	56.0	58.3	54.1	38.9	45.1	32.1	49.8	47.4	47.7
Grounding-DINO	✗	50.4	57.2	43.2	51.4	57.6	45.8	67.5	67.1	55.0
Kosmos-2	✗	52.3	57.4	47.3	45.5	50.7	42.2	60.6	61.7	52.2
GroundingAgent (Ours)	✓	67.1	73.3	60.1	62.4	67.6	53.8	67.9	68.8	65.1

候选生成阶段的检测器召回率¶

检测器	RefCOCO val	RefCOCO testA	RefCOCO testB	Avg
APE	98.6	98.7	97.9	98.3
GroundingDINO	98.3	98.7	97.6	98.2
OWL-ViT	95.7	96.3	92.6	94.9
YOLO-World	94.4	96.7	91.1	93.8

Caption 替换实验（上界分析）¶

策略	Avg
MLLM 生成的 Caption	65.1
Query + Caption	85.0
直接用原始 Query	90.6

LLM 消融¶

LLM	RefCOCO testA	RefCOCO testB
DeepSeek-V3	73.3	60.1
DeepSeek-R1	75.9	60.3
Llama3.1-8B	55.0	44.0
DeepSeek-R1-Llama-8B	59.7	47.7
Qwen2.5-7B	52.0	41.6

分割扩展（+SAM）¶

数据集	mIoU
RefCOCO-val	57.3
RefCOCO+-val	51.2
RefCOCOg-val	56.5

消融实验要点¶

MLLM Caption 质量是最大瓶颈：将 caption 替换为原始 query 后准确率从 65.1% 飙升至 90.6%，接近有监督 SOTA（Qwen2.5-VL 90.3%）。这说明 LLM 推理本身没问题，损失主要来自 MLLM 生成描述时的幻觉和不精确。
推理能力比模型大小更重要：DeepSeek-R1-Llama-8B 比基础 Llama3.1-8B 高 4-5 个点，参数量相同但推理训练带来显著增益。
全局 caption 对候选生成至关重要：去掉 caption 后召回率显著下降。
Self-Consistency 采样有效：5 次采样 + LLM 聚合将 val 准确率提高 1.4%（67.1→68.5）。
稳定性好：三次独立运行的标准差约 0.55%。
拒绝率很低：RefCOCO+ 上 0.73-1.69%，说明 agent 不会轻易"放弃"。

亮点¶

系统设计思路非常清晰：将 VG 分解为 "生成概念→检测候选→描述区域→推理选择" 四步，每步都利用最擅长该子任务的预训练模型，模块化设计允许随时替换升级
上界分析很有说服力：通过 caption→query 替换实验，精准定位了瓶颈在 MLLM 的描述质量而非 LLM 推理能力，这种 "oracle 分析" 的实验设计值得学习
可解释性强：每个推理步骤都可视化，接受/拒绝每个候选都有明确理由，这在 agent 系统中很有价值
真正的 zero-shot：不像 REG 等方法用合成标注隐式训练，GroundingAgent 完全不碰任何 grounding 标注

局限性 / 可改进方向¶

性能与有监督方法仍有较大差距：65.1% vs 有监督 SOTA 84-90%，在实际应用中可能不够用
推理效率低：每张图需要 MLLM 做全局描述 + N 个区域描述 + LLM 多步推理，延迟和成本较高（论文未报告推理时间，这是一个回避的问题）
MLLM Caption 幻觉问题未根本解决：self-consistency 只是 patch，论文也承认这是核心瓶颈
小目标检测能力受限：过滤掉 < 2.5% 面积的框，对小目标定位不利
仅在 RefCOCO 系列评测：缺少在更多样化数据集（如 Flickr30K Entities、PhraseCut）上的验证
依赖闭源或大型 LLM：默认用 DeepSeek-V3，换成小模型（Llama-8B、Qwen-7B）后性能大幅下降，实际部署受限

与相关工作的对比¶

vs Grounding DINO：Grounding DINO 是端到端检测器，在 RefCOCO 上 zero-shot（不用 grounding 标注训练）平均 55.0%，GroundingAgent 高 10 个点。但 Grounding DINO 推理速度快几个数量级。
vs ReCLIP / VGDiffZero：这些是之前的 training-free VG 方法，GroundingAgent 通过引入 LLM 推理能力实现 12-27% 的提升，核心差异在于使用了 agentic reasoning pipeline 而非简单的相似度匹配。
vs GPT-4o 直接定位：GPT-4o 直接输出 bbox 时准确率很低（如 Figure 1），GroundingAgent 的核心观点是不要让 MLLM 直接定位，而是让检测器负责定位、LLM 负责推理选择。

启发与关联¶

Agent Pipeline 设计范式：这篇论文展示了一种在多模态任务中有效利用"工具组合"的 agent 设计范式——不要让一个模型做所有事，而是让每个模型做自己最擅长的事。这个思路可以迁移到其他需要定位+理解的任务（如 visual question answering with grounding、embodied navigation）
Caption 质量是 VLM Agent 的共性瓶颈：oracle 实验表明 LLM 推理能力本身已足够强（替换 caption 后达 90%+），瓶颈在于 MLLM 的视觉描述不够准确。这对所有依赖"先描述再推理"的 VLM agent 系统都是一个警示
推理能力 > 参数规模：DeepSeek-R1 系列的实验结果表明，通过推理训练（如 reward model、GRPO）提升 LLM 的结构化推理能力比单纯增大模型更有效。这与当前 reasoning model 的大趋势一致

评分¶

新颖性: ⭐⭐⭐ 将已有组件（检测器+MLLM+LLM）通过 agent pipeline 串联的思路并非全新，但在 VG 任务上的具体设计和上界分析比较有价值
实验充分度: ⭐⭐⭐⭐ 消融全面，oracle 分析、LLM 消融、检测器消融、self-consistency、分割扩展、失败分析都有，但缺少推理效率数据和更多数据集验证
写作质量: ⭐⭐⭐⭐ 结构清晰，问题定义准确，实验分析有深度，但部分内容在正文和附录间重复
价值: ⭐⭐⭐ 作为 training-free baseline 有参考意义，但 65.1% 的绝对性能和高推理成本限制了实用价值；最大贡献是证明了 "caption 是瓶颈" 这一洞察