MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents¶

日期: 2026-03-20
arXiv: 2508.21475
代码: 无
领域: LLM Agent / 多模态VLM
关键词: multimodal search, browsing agent, spatial-temporal extrapolation, provenance-aware, Set-of-Mark

一句话总结¶

构建 MMSearch-Plus benchmark（311 个需要"时空外推"的多模态搜索任务），要求 agent 从图像中的细粒度视觉线索推断像素之外的事实（如日期/事件/地点），最强模型 o3 仅达 37.6%——提出 Set-of-Mark 区域裁剪模块持续带来 +3.9% 提升。

研究背景与动机¶

领域现状: 多模态搜索 benchmark（如 MMSearch）已有发展，但很多任务可通过纯文本搜索解决，不需要真正的视觉推理。BrowseComp 等文本搜索 benchmark 难度极高但不涉及视觉。
现有痛点: (a) 现有 benchmark 缺少需要细粒度视觉推理的任务；(b) 图片搜索常直接检索到答案（强搜索引擎可跳过视觉推理）；(c) 多模态搜索能力缺乏系统评估——文本搜索 benchmark 中 SOTA 模型 <2% 准确率，但多模态版本却容易得多。
核心矛盾: 真实世界的多模态搜索需要深层视觉推理 + 多步证据收集，但现有 benchmark 的"多模态"往往坍缩为"用图片搜索引擎找到来源网页"——视觉推理几乎不参与决策过程。
切入角度: 设计"时空外推"（Spatial-Temporal Extrapolation）任务——从图像中推断图像之外的事实。空间外推：推断画面外的人/物/场景；时间外推：推断拍摄前后的事件/日期——这确保了纯文本方法无法解决。
核心 idea: 设计"时空外推"任务——agent 必须从图像中的空间线索（如地标、标志牌、特定物体）推断图像之外的信息（如事件发生日期、地点名称、关联人物），这需要真正的视觉理解+搜索+推理链条。

方法详解¶

Benchmark 设计¶

311 个任务，441 张独特图像，8 大类（地理/体育/学术/影视/科技/游戏/Vlog/音乐），43 个子类
难度划分：Easy 94 (30.2%), Hard 217 (69.8%)
每个任务需要从图像视觉线索出发，通过搜索引擎找到答案
对抗性过滤：交叉验证（至少两个闭源 MLLM 测试）+ 图像扰动（关键区域模糊/遮挡）+ 迭代精炼，确保任务不可被内部知识直接回答

Agent 框架¶

文本/图片搜索（via SerpAPI）+ 缓存机制避免重复搜索
Set-of-Mark (SoM) 模块:
做什么：为图像区域放置标记，支持区域级裁剪和针对性搜索
核心思路：人工验证的标记 + 区域裁剪 → 区域级图片搜索（zoom_in/image_search），实现 provenance-aware 的"看到→裁剪→搜索"工作流
设计动机：全图搜索可能返回无关结果，区域级裁剪聚焦于关键视觉线索（如球衣号码、路标文字、建筑细节），显著提升检索精度
实现细节：该模块在训练中采用端到端优化，与其他组件联合学习，无需单独预训练

实验关键数据¶

端到端准确率¶

模型	Full (w/ SoM)	Easy	Hard
o3	37.6%	54.3%	28.1%
GPT-5	35.4%	-	-
Gemini-2.5-Pro	27.7%	-	-
Human (w/browser)	22.8%	-	-

关键发现¶

模型最强也仅 37.6%——表明多模态搜索任务仍有巨大提升空间
SoM 区域裁剪模块带来一致的 +1.6 到 +3.9% 提升——证明细粒度视觉定位对搜索有帮助
主要失败模式：(a) 找不到相关网页 (b) 无法区分视觉上相似的事件
人类专家仅 22.8% 说明任务本身极难——需要大量特定领域知识

亮点与洞察¶

时空外推的任务设计确保了必须结合视觉+搜索+推理——不可能纯文本解决
SoM 模块的 provenance-aware 设计值得借鉴：通过区域标记让 agent 知道"看到了什么→搜什么"
人类表现比模型还低的结果很有趣——说明这类任务需要的是知识广度而非推理深度

局限性 / 可改进方向¶

依赖 SerpAPI 的搜索结果质量——搜索引擎变化会影响可复现性
311 个任务规模偏小，部分子类样本不足
未评估带 RAG/工具增强的专门 agent
时间漂移问题：随着模型知识截止日期更新，部分任务会变得不再需要搜索
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证

评分¶

新颖性: ⭐⭐⭐⭐ 时空外推任务设计有创意，SoM 区域裁剪方案实用
实验充分度: ⭐⭐⭐⭐ 多模型+SoM消融+人类基线+失败模式分析
写作质量: ⭐⭐⭐⭐ 任务设计原则论述清晰
价值: ⭐⭐⭐⭐ 为多模态搜索 agent 研究提供了高质量 benchmark