MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains¶

会议: ICLR 2026
arXiv: 2603.00873
代码: https://mc-search-project.github.io (有)
领域: LLM Agent
关键词: 多模态RAG, Agentic Search, 多跳推理, 过程级评估, 检索增强推理

一句话总结¶

提出 MC-Search，首个面向 agentic 多模态 RAG 的 benchmark，包含 3,333 个高质量样本（平均 3.7 跳），覆盖 5 种推理拓扑结构，通过 HAVE 验证确保每步必要性，并引入 Search-Align 过程监督微调框架使开源模型的检索规划能力大幅提升（Qwen2.5-VL-7B F1 提升 +13.7）。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）正从固定的"检索-生成"范式向更复杂的 agentic 多模态检索增强生成（MM-RAG）演进。模型需要迭代分解查询、自适应跨模态检索、整合多模态证据。
现有痛点：现有 MM-RAG benchmark 存在三个关键局限——(a) 大多采用简单 QA 格式，将多模态证据压缩为纯文本通道（如 MRAG）；(b) 仅评估 1-2 跳的浅层检索，缺乏长推理链（如 Dyn-VQA）；(c) 缺少逐步标注和显式推理拓扑，无法分析不同模态在推理中的角色。
核心矛盾：实际查询通常是模糊且复杂的，需要多步、跨模态、知识密集的推理。但没有合适的 benchmark 来评估 MLLM 是否真正能进行长链、结构化的多模态搜索推理。
本文要解决什么：(a) 构建首个支持长推理链（≥4跳）的多模态 agentic RAG benchmark；(b) 提供逐步标注和多种推理拓扑；(c) 设计过程级评估指标；(d) 利用验证过的推理链改善开源模型。
切入角度：从 Wikipedia 知识库出发构建多模态知识集群，设计 5 种有代表性的推理拓扑结构（串行/并行、图像启动/文本启动/多图分叉等），通过 HAVE 过滤确保每个推理步骤既必要又非冗余。
核心idea：长链多跳 + 5种推理拓扑 + HAVE验证 + 过程级指标 + Search-Align 微调 = 全面评估和提升 agentic MM-RAG。

方法详解¶

整体框架¶

MC-Search 包含两大部分：(1) Benchmark 构建——从 Wikipedia 构建多模态知识库，生成覆盖5种推理拓扑的多跳 QA，经 HAVE 过滤和质量验证得到 3,333 个高质量样本；(2) 评估与训练——设计统一的 agentic MM-RAG pipeline 和过程级指标进行公平评估，并通过 Search-Align 利用验证链微调开源模型。

关键设计¶

5种搜索增强推理拓扑:
做什么：定义 5 种代表性的多跳推理图结构，每种结构的推理链形式化为 \(\mathcal{G}(Q,A) = \{(q_t, m_t, r_t, a_t)\}_{t=1}^{T}\)，其中 \(q_t\) 是子问题，\(m_t\) 是检索模态，\(r_t\) 是证据，\(a_t\) 是中间答案
5种结构：(i) Image-Initiated Chain（图像启动+后续文本检索）；(ii) Text-Initiated Chain（文本启动+后续图像验证）；(iii) Parallel Image-Text Fork（图文并行检索，无跨步依赖）；(iv) Multi-Images Fork（多图视觉比较+文本支持）；(v) Text-Only Chain（纯文本基线）
设计动机：捕捉现实世界中的串行/并行推理模式和不同模态组合，使评估更全面
HAVE（Hop-wise Attribution and Verification of Evidence）:
做什么：过滤推理链中的幻觉步骤和冗余步骤
核心思路：对每个步骤计算上下文效用 \(\text{Util}(t) = \text{F1}(\mathcal{C}) - \text{F1}(\mathcal{C} \setminus r_t)\)——移除该步证据后答案准确率的下降。同时检查导航角色：\(\text{Nav}(t)=1\) 如果该步中间答案的实体出现在下游子问题中。若 Util 低于阈值且 Nav=0，则该步为冗余
设计动机：LLM 生成的长推理链常含虚构步骤（看似合理但无证据支持）或多余步骤（对答案无贡献）。HAVE 的双重检查（直接效用 + 导航角色）确保保留的每一步都是不可或缺的
过程级评估指标:
做什么：超越答案准确率，评估推理过程质量
核心思路：(i) Hit per Step (HPS)——金标推理步被预测图成功覆盖的比例；(ii) Rollout Deviation (RD)——预测链和金标链的步数差，\(\text{RD} = ||{\hat{\mathcal{G}}}| - |{\mathcal{G}}||\)，反映过度/不足检索程度；(iii) LLM-as-a-Judge (LJ)——从答案准确、推理连贯、实体覆盖、步骤对齐四个维度评分
设计动机：仅看最终答案无法诊断检索规划或模态选择的问题
Agentic MM-RAG Pipeline:
做什么：统一的迭代搜索推理管线，支持公平评估
核心思路：每轮迭代：(a) 生成子查询和检索动作（文本搜索/图像搜索/图像查图）；(b) 从多模态知识库检索 top-1 证据；(c) 生成子答案并判断是否继续搜索。全程记录模态和证据，支持链级评估
设计动机：现有工作各用不同 pipeline，缺乏公平对比基础
Search-Align 过程监督微调:
做什么：利用 HAVE 验证过的推理链对开源 MLLM 进行 SFT
核心思路：将推理图转化为对话形式（assistant 提子问题+推理，user 执行检索+返回结果），用 Gemini-2.5-Flash 为每步生成推理思路（reasoning thoughts），连接相邻跳。然后在这种对话式 trace 上做 supervised fine-tuning
设计动机：传统 SFT 只监督最终答案，Search-Align 提供步级监督信号，教会模型如何规划、选择检索模态、整合跨步证据

损失函数 / 训练策略¶

Search-Align 使用标准的 next-token prediction loss 在对话式推理 trace 上微调。训练数据来自 HAVE 验证后的 3,333 条推理链。

实验关键数据¶

主实验（Image-Initiated Chain 拓扑为例）¶

模型	F1(↑)	ΔF1(↑)	LJ(↑)	HPS(↑)	RD(↓)	Golden F1
GPT-4o-Mini	36.49	34.18	2.63	27.51	1.46	68.29
Gemini-2.5-Flash	44.10	37.38	3.01	31.46	2.91	72.39
Gemini-2.5-Pro	47.61	42.76	3.18	25.90	1.05	69.83
Claude-3.7-Sonnet	37.80	33.09	2.60	27.31	1.18	72.62
InternVL3.5-8B	39.11	29.49	2.27	22.59	1.58	-
+ Search-Align	42.27	32.65	2.53	32.49	0.94	63.86
Qwen2.5-VL-7B	26.30	8.65	1.34	16.51	4.04	-
+ Search-Align	45.70	28.05	2.23	33.59	0.70	60.95

消融实验（模态覆盖分析）¶

查询类型	模态	Gemini-2.5-Pro 覆盖率	InternVL-3.5-8B 覆盖率
含图查询	Image	87.35%	63.84%
含图查询	Text	78.61%	82.67%
无图查询	Image	29.50%	0.66%
无图查询	Text	83.55%	89.78%

关键发现¶

Search-Align 效果显著：Qwen2.5-VL-7B 经微调后 F1 平均提升 +13.7，HPS 提升 +16.0，RD 降低 3.1，几乎追平 Gemini-2.5-Pro
Parallel Image-Text Fork 最难：需要同时覆盖文本和图像两个分支，所有模型在此拓扑上 F1 和 HPS 最低
严重的模态偏差：当查询中无显式图像线索时，InternVL 的图像检索覆盖率从 63.84% 暴跌至 0.66%，说明模型默认偏向文本检索
链越长越难：4-5 跳的推理链上所有模型性能急剧下降，复合检索错误和不稳定规划是主因
适度过度检索有益：多检索 1-2 步（ΔStep=1~2）通常能提高准确率，但过度检索 ≥4 步会引入噪音导致性能骤降
主要瓶颈在检索规划：错误分析显示 Retrieval-Failure（84.7%）、Hallucinated Entity（75.8%）和 Step-Omission（74.3%）是最常见错误类型

亮点与洞察¶

5种推理拓扑的设计非常系统：不是随意组合多跳问题，而是从实际 MM-RAG 需求出发定义了串行/并行×图像/文本的完整组合空间，为后续研究提供了清晰的分析框架
HAVE 过滤机制巧妙：用"移除某步后答案准确率下降"来验证必要性，用"中间答案实体是否出现在下游子问题"来捕捉导航性步骤，双重标准避免了既不过滤也不误删的平衡问题
过程级指标填补空白：HPS 和 RD 可以精确定位模型是"检索不够"还是"检索过多"，对调试 agentic RAG 系统非常实用
模态偏差的发现很有启发：无图线索时图像检索几乎为零，说明模型还远未具备"根据问题需要主动选择模态"的能力

局限性 / 可改进方向¶

知识库基于 Wikipedia，领域覆盖有限（未涉及科学、数学等专业领域）
数据生成依赖 Gemini-2.5-Flash，引入了模型特定偏差
评估仅用 6 个 MLLM，未包含更强的推理模型（如 GPT-5 系列、Gemini-2.5-Pro with thinking）
Search-Align 仅使用 SFT，未探索 RL 或 DPO 等强化学习方法
top-1 检索约束可能过于严格，实际应用中通常检索多条结果

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个长链多模态 agentic RAG benchmark，5种推理拓扑+HAVE验证+过程级指标，系统性很强
实验充分度: ⭐⭐⭐⭐ 6个MLLM + 多维度分析（链长/过检索/模态偏差/错误类型），但模型覆盖可以更广
写作质量: ⭐⭐⭐⭐ 结构清晰，形式化完整，图表丰富，但内容密度大导致部分细节需要多次阅读
价值: ⭐⭐⭐⭐⭐ 为多模态 agentic search 领域提供了急需的评估基础设施和训练方法，Search-Align 的效果也验证了数据的训练价值