跳转至

MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents

日期: 2026-03-20
arXiv: 2508.21475
代码: 无
领域: LLM Agent / 多模态VLM
关键词: multimodal search, browsing agent, spatial-temporal extrapolation, provenance-aware, Set-of-Mark

一句话总结

构建 MMSearch-Plus benchmark(311 个需要"时空外推"的多模态搜索任务),要求 agent 从图像中的细粒度视觉线索推断像素之外的事实(如日期/事件/地点),最强模型 o3 仅达 37.6%——提出 Set-of-Mark 区域裁剪模块持续带来 +3.9% 提升。

研究背景与动机

  1. 领域现状: 多模态搜索 benchmark(如 MMSearch)已有发展,但很多任务可通过纯文本搜索解决,不需要真正的视觉推理。BrowseComp 等文本搜索 benchmark 难度极高但不涉及视觉。

  2. 现有痛点: (a) 现有 benchmark 缺少需要细粒度视觉推理的任务;(b) 图片搜索常直接检索到答案(强搜索引擎可跳过视觉推理);(c) 多模态搜索能力缺乏系统评估——文本搜索 benchmark 中 SOTA 模型 <2% 准确率,但多模态版本却容易得多。

  3. 核心矛盾: 真实世界的多模态搜索需要深层视觉推理 + 多步证据收集,但现有 benchmark 的"多模态"往往坍缩为"用图片搜索引擎找到来源网页"——视觉推理几乎不参与决策过程。

  4. 切入角度: 设计"时空外推"(Spatial-Temporal Extrapolation)任务——从图像中推断图像之外的事实。空间外推:推断画面外的人/物/场景;时间外推:推断拍摄前后的事件/日期——这确保了纯文本方法无法解决。

  5. 核心 idea: 设计"时空外推"任务——agent 必须从图像中的空间线索(如地标、标志牌、特定物体)推断图像之外的信息(如事件发生日期、地点名称、关联人物),这需要真正的视觉理解+搜索+推理链条。

方法详解

Benchmark 设计

  • 311 个任务,441 张独特图像,8 大类(地理/体育/学术/影视/科技/游戏/Vlog/音乐),43 个子类
  • 难度划分:Easy 94 (30.2%), Hard 217 (69.8%)
  • 每个任务需要从图像视觉线索出发,通过搜索引擎找到答案
  • 对抗性过滤:交叉验证(至少两个闭源 MLLM 测试)+ 图像扰动(关键区域模糊/遮挡)+ 迭代精炼,确保任务不可被内部知识直接回答

Agent 框架

  • 文本/图片搜索(via SerpAPI)+ 缓存机制避免重复搜索
  • Set-of-Mark (SoM) 模块:
  • 做什么:为图像区域放置标记,支持区域级裁剪和针对性搜索
  • 核心思路:人工验证的标记 + 区域裁剪 → 区域级图片搜索(zoom_in/image_search),实现 provenance-aware 的"看到→裁剪→搜索"工作流
  • 设计动机:全图搜索可能返回无关结果,区域级裁剪聚焦于关键视觉线索(如球衣号码、路标文字、建筑细节),显著提升检索精度
  • 实现细节:该模块在训练中采用端到端优化,与其他组件联合学习,无需单独预训练

实验关键数据

端到端准确率

模型 Full (w/ SoM) Easy Hard
o3 37.6% 54.3% 28.1%
GPT-5 35.4% - -
Gemini-2.5-Pro 27.7% - -
Human (w/browser) 22.8% - -

关键发现

  • 模型最强也仅 37.6%——表明多模态搜索任务仍有巨大提升空间
  • SoM 区域裁剪模块带来一致的 +1.6 到 +3.9% 提升——证明细粒度视觉定位对搜索有帮助
  • 主要失败模式:(a) 找不到相关网页 (b) 无法区分视觉上相似的事件
  • 人类专家仅 22.8% 说明任务本身极难——需要大量特定领域知识

亮点与洞察

  • 时空外推的任务设计确保了必须结合视觉+搜索+推理——不可能纯文本解决
  • SoM 模块的 provenance-aware 设计值得借鉴:通过区域标记让 agent 知道"看到了什么→搜什么"
  • 人类表现比模型还低的结果很有趣——说明这类任务需要的是知识广度而非推理深度

局限性 / 可改进方向

  • 依赖 SerpAPI 的搜索结果质量——搜索引擎变化会影响可复现性
  • 311 个任务规模偏小,部分子类样本不足
  • 未评估带 RAG/工具增强的专门 agent
  • 时间漂移问题:随着模型知识截止日期更新,部分任务会变得不再需要搜索
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

相关工作与启发

  • vs MMSearch: MMSearch 的任务多数可被纯文本搜索解决,MMSearch-Plus 通过时空外推确保必须用视觉推理
  • vs BrowseComp / BrowseComp-VL: BrowseComp 是纯文本的高难度搜索 benchmark(SOTA <2%),MMSearch-Plus 将类似难度扩展到多模态
  • vs GeoGuessr: GeoGuessr 的"从视觉线索推断位置"思路启发了空间外推任务设计
  • 启发: 未来的多模态 agent 需要从"检索式"升级到"推理式"搜索——不是找到答案,而是从碎片化线索中推断答案

  • 技术贡献定位:本文的核心创新在于方法论层面的改进,而非简单的工程优化,提出的技术组件具有独立的复用价值

  • 领域影响:该工作为后续研究提供了新的基线和评估框架,有望推动相关领域的进一步发展

评分

  • 新颖性: ⭐⭐⭐⭐ 时空外推任务设计有创意,SoM 区域裁剪方案实用
  • 实验充分度: ⭐⭐⭐⭐ 多模型+SoM消融+人类基线+失败模式分析
  • 写作质量: ⭐⭐⭐⭐ 任务设计原则论述清晰
  • 价值: ⭐⭐⭐⭐ 为多模态搜索 agent 研究提供了高质量 benchmark