MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents¶
日期: 2026-03-20
arXiv: 2508.21475
代码: 无
领域: LLM Agent / 多模态VLM
关键词: multimodal search, browsing agent, spatial-temporal extrapolation, provenance-aware, Set-of-Mark
一句话总结¶
构建 MMSearch-Plus benchmark(311 个需要"时空外推"的多模态搜索任务),要求 agent 从图像中的细粒度视觉线索推断像素之外的事实(如日期/事件/地点),最强模型 o3 仅达 37.6%——提出 Set-of-Mark 区域裁剪模块持续带来 +3.9% 提升。
研究背景与动机¶
-
领域现状: 多模态搜索 benchmark(如 MMSearch)已有发展,但很多任务可通过纯文本搜索解决,不需要真正的视觉推理。BrowseComp 等文本搜索 benchmark 难度极高但不涉及视觉。
-
现有痛点: (a) 现有 benchmark 缺少需要细粒度视觉推理的任务;(b) 图片搜索常直接检索到答案(强搜索引擎可跳过视觉推理);(c) 多模态搜索能力缺乏系统评估——文本搜索 benchmark 中 SOTA 模型 <2% 准确率,但多模态版本却容易得多。
-
核心矛盾: 真实世界的多模态搜索需要深层视觉推理 + 多步证据收集,但现有 benchmark 的"多模态"往往坍缩为"用图片搜索引擎找到来源网页"——视觉推理几乎不参与决策过程。
-
切入角度: 设计"时空外推"(Spatial-Temporal Extrapolation)任务——从图像中推断图像之外的事实。空间外推:推断画面外的人/物/场景;时间外推:推断拍摄前后的事件/日期——这确保了纯文本方法无法解决。
-
核心 idea: 设计"时空外推"任务——agent 必须从图像中的空间线索(如地标、标志牌、特定物体)推断图像之外的信息(如事件发生日期、地点名称、关联人物),这需要真正的视觉理解+搜索+推理链条。
方法详解¶
Benchmark 设计¶
- 311 个任务,441 张独特图像,8 大类(地理/体育/学术/影视/科技/游戏/Vlog/音乐),43 个子类
- 难度划分:Easy 94 (30.2%), Hard 217 (69.8%)
- 每个任务需要从图像视觉线索出发,通过搜索引擎找到答案
- 对抗性过滤:交叉验证(至少两个闭源 MLLM 测试)+ 图像扰动(关键区域模糊/遮挡)+ 迭代精炼,确保任务不可被内部知识直接回答
Agent 框架¶
- 文本/图片搜索(via SerpAPI)+ 缓存机制避免重复搜索
- Set-of-Mark (SoM) 模块:
- 做什么:为图像区域放置标记,支持区域级裁剪和针对性搜索
- 核心思路:人工验证的标记 + 区域裁剪 → 区域级图片搜索(zoom_in/image_search),实现 provenance-aware 的"看到→裁剪→搜索"工作流
- 设计动机:全图搜索可能返回无关结果,区域级裁剪聚焦于关键视觉线索(如球衣号码、路标文字、建筑细节),显著提升检索精度
- 实现细节:该模块在训练中采用端到端优化,与其他组件联合学习,无需单独预训练
实验关键数据¶
端到端准确率¶
| 模型 | Full (w/ SoM) | Easy | Hard |
|---|---|---|---|
| o3 | 37.6% | 54.3% | 28.1% |
| GPT-5 | 35.4% | - | - |
| Gemini-2.5-Pro | 27.7% | - | - |
| Human (w/browser) | 22.8% | - | - |
关键发现¶
- 模型最强也仅 37.6%——表明多模态搜索任务仍有巨大提升空间
- SoM 区域裁剪模块带来一致的 +1.6 到 +3.9% 提升——证明细粒度视觉定位对搜索有帮助
- 主要失败模式:(a) 找不到相关网页 (b) 无法区分视觉上相似的事件
- 人类专家仅 22.8% 说明任务本身极难——需要大量特定领域知识
亮点与洞察¶
- 时空外推的任务设计确保了必须结合视觉+搜索+推理——不可能纯文本解决
- SoM 模块的 provenance-aware 设计值得借鉴:通过区域标记让 agent 知道"看到了什么→搜什么"
- 人类表现比模型还低的结果很有趣——说明这类任务需要的是知识广度而非推理深度
局限性 / 可改进方向¶
- 依赖 SerpAPI 的搜索结果质量——搜索引擎变化会影响可复现性
- 311 个任务规模偏小,部分子类样本不足
- 未评估带 RAG/工具增强的专门 agent
- 时间漂移问题:随着模型知识截止日期更新,部分任务会变得不再需要搜索
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
- 更大规模和更多样化数据上的泛化能力需要进一步验证
相关工作与启发¶
- vs MMSearch: MMSearch 的任务多数可被纯文本搜索解决,MMSearch-Plus 通过时空外推确保必须用视觉推理
- vs BrowseComp / BrowseComp-VL: BrowseComp 是纯文本的高难度搜索 benchmark(SOTA <2%),MMSearch-Plus 将类似难度扩展到多模态
- vs GeoGuessr: GeoGuessr 的"从视觉线索推断位置"思路启发了空间外推任务设计
-
启发: 未来的多模态 agent 需要从"检索式"升级到"推理式"搜索——不是找到答案,而是从碎片化线索中推断答案
-
技术贡献定位:本文的核心创新在于方法论层面的改进,而非简单的工程优化,提出的技术组件具有独立的复用价值
- 领域影响:该工作为后续研究提供了新的基线和评估框架,有望推动相关领域的进一步发展
评分¶
- 新颖性: ⭐⭐⭐⭐ 时空外推任务设计有创意,SoM 区域裁剪方案实用
- 实验充分度: ⭐⭐⭐⭐ 多模型+SoM消融+人类基线+失败模式分析
- 写作质量: ⭐⭐⭐⭐ 任务设计原则论述清晰
- 价值: ⭐⭐⭐⭐ 为多模态搜索 agent 研究提供了高质量 benchmark