VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents¶
日期: 2026-03-17
arXiv: 2603.16289
代码: GitHub
领域: 多模态/VLM / LLM Agent
关键词: 多模态浏览Agent, 视觉原生搜索, 深度研究, 基准测试, 工具调用
一句话总结¶
提出 VisBrowse-Bench,一个 169 道专家构造的多模态 VQA 基准,要求浏览 Agent 在搜索过程中主动获取和推理视觉信息(而非仅靠反向图像搜索获取实体名后退化为文本搜索),最强模型 Claude-4.6-Opus 仅达 47.6% 准确率。
研究背景与动机¶
-
领域现状: 多模态浏览 Agent(如 MMSearch-R1、WebWatcher)结合 MLLM + 搜索工具完成复杂信息检索任务。现有基准如 MMSearch、BrowseComp-VL 评估这些 Agent 的能力。
-
现有痛点: (a) 多数基准中的视觉查询可以通过反向图像搜索获取实体名后退化为纯文本搜索——不需要真正的视觉推理能力;(b) 搜索过程中遇到的网页视觉信息(图片、图表)被忽略——推理链中没有视觉证据,仅依赖文本。
-
核心矛盾: 现有基准测的是"工具调用能力"而非"视觉搜索推理能力"——Agent 只要会调反向图搜就能通过,无需真正理解图片内容。
-
切入角度: 设计数据使得视觉信息在推理链中不可替代——不能用文字描述替代,必须跨图像推理、空间定位、属性感知。
-
核心 idea: 通过专家构造的多跳推理链,强制要求 Agent 在搜索过程中发现并理解新的视觉证据(至少 2 个视觉证据块),每个问题至少跨 3 跳。
方法详解¶
基准设计¶
两大核心原则: 1. 多模态信息集成: 查询和证据获取都需要同时处理视觉+文本 2. 视觉能力不可绕过: 视觉信息必须结构性不可替代——不能用文字描述替代
数据构造流程: 1. 专家选择种子实体(有视觉歧义性) 2. 递归构建多跳推理链:视觉检索 → 事件关联 → 跨模态实体跳转 3. 每条链至少 3 跳、2 个视觉证据块 4. 双专家独立验证 + 可解性/答案唯一性检查
覆盖领域: 7 类 24 子类——媒体、生活、艺术、地理、科技、体育、金融 规模: 169 个 VQA 实例,平均问题长度 47.7 词
Agent 工作流¶
5 个工具的闭环迭代:
1. text_search(query) → 网页标题/摘要/URL
2. image_search(query) → 相关图片 + 来源页面
3. reverse_image_search(image_url) → 相似图片 + 来源
4. image_crop(image_url) → 裁剪感兴趣区域
5. webpage_visit(url, query) → 结构化网页内容 + LLM 压缩摘要
评估设置¶
三种工具介入程度: - Direct Answer: 仅凭内部知识 - + Text Search (TS): 仅文本搜索 + 网页访问 - + Image Search (IS): 全部 5 个工具
实验关键数据¶
主实验¶
| 模型 | Direct | +TS | +IS (全工具) |
|---|---|---|---|
| Claude-4.6-Opus | 27.2 | 42.6 | 47.6 |
| Gemini-3.0-Pro | 23.7 | 38.5 | 40.2 |
| GPT-5.2 | 14.8 | 26.0 | 28.4 |
| Claude-4.6-Sonnet | 20.7 | 31.4 | 33.1 |
| Gemini-3.0-Flash | 32.5 | 37.9 | 39.1 |
| Qwen3-VL-235B (开源) | 14.2 | 21.3 | 26.0 |
| o3-Deep-Research | - | - | 41.1 |
最强模型只有 47.6%,说明视觉原生搜索仍是巨大挑战。
关键发现¶
| 发现 | 数据 |
|---|---|
| 图像搜索工具有帮助但提升有限 | TS→IS 平均仅 +2-5pp |
| 最大提升来自文本搜索 | Direct→TS 提升 10-15pp |
| Claude 系列显著领先 | Opus 47.6% >> GPT-5.2 28.4% |
| 开源模型差距大 | Qwen3-VL-235B 26.0% vs Claude 47.6% |
| Deep Research 模型不擅长视觉搜索 | o3-deep-research 仅 41.1%,低于 Claude Opus |
类别分析¶
- 地理 和 媒体 类别得分最高(需要实体识别+空间推理)
- 金融 类别最难(大多数模型 0-25%)
亮点与洞察¶
- 揭示了"视觉搜索退化"问题: 现有基准允许 Agent 在获取实体名后退化为纯文本搜索,VisBrowse-Bench 通过设计使这种捷径失效——这对基准设计社区是重要警示。
- 图像搜索工具的有限价值: +IS 相比 +TS 仅提升 2-5pp,说明当前 Agent 还不擅长主动利用视觉信息——工具给了但不会用。
- Deep Research 模型的盲点: o3-deep-research(专为深度研究设计)反而不如 Claude Opus,说明现有 Deep Research 系统过度依赖文本推理。
- 专家构造 vs 自动生成: 169 道题虽少但都经过双专家验证,质量 > 数量。
局限性 / 可改进方向¶
- 规模偏小: 169 个实例可能不足以覆盖足够的多样性,统计置信度有限
- 工具依赖: 使用 SerperAPI 和 JinaAPI 等外部服务,结果可能随时间变化(网页内容更新)
- 裁判模型偏差: 用 GPT-5.1 做 Judge 可能对某些答案风格有偏好
- 缺少 Agent 端改进: 只提出了基准和基线工作流,未探索如何训练 Agent 提升视觉搜索能力
相关工作与启发¶
- vs MMSearch: MMSearch 允许通过反向图搜退化为文本搜索,VisBrowse-Bench 设计上防止了这种退化
- vs BrowseComp-VL: BrowseComp-VL 增加搜索深度但仍是文本主导,VisBrowse-Bench 要求视觉证据在推理链中不可替代
- 启发: 对多模态 Agent 的评估不应只看最终准确率,还要看搜索过程中是否真正利用了视觉信息——需要 process-level 的评估指标
评分¶
- 新颖性: ⭐⭐⭐⭐ "视觉原生搜索"的问题定义新颖且重要
- 实验充分度: ⭐⭐⭐ 11 个模型 + 3 种工具配置,但 169 题规模偏小
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,与现有基准的对比分析到位
- 价值: ⭐⭐⭐⭐ 对多模态 Agent 社区有方向性启发