MMhops-R1: Multimodal Multi-hop Reasoning¶

会议: AAAI 2026
arXiv: 2512.13573
代码: https://github.com/taoszhang/MMhops-R1
领域: 多模态VLM / 知识增强推理
关键词: 多模态多跳推理, 强化学习, 检索增强生成, 知识库VQA, 动态规划

一句话总结¶

提出了 MMhops 基准（31K 样本、3-4 跳推理深度）和 MMhops-R1 框架，通过强化学习训练 MLLM 自主规划推理路径、动态调用图像/文本检索器，实现多模态多跳推理，7B 模型超越 72B 基线和现有 mRAG 方法。

背景与动机¶

现有 MLLM 的推理能力主要集中在单步推理（空间推理、数学推理等），但现实世界的复杂问题往往需要多步整合多模态信息和外部知识。现有知识库 VQA 数据集（OK-VQA、INFOSEEK 等）通常只需要"一步视觉识别 + 一步知识检索"的浅层推理，即使 E-VQA 扩展到了两跳，也仅限于文本模态且推理路径长度固定。这限制了模型多模态多跳推理能力的评估和训练。同时，现有多模态 RAG 方法采用静态流程，无法根据问题复杂度动态调整推理深度。

核心问题¶

如何让多模态大模型具备动态多跳推理能力——即根据问题复杂度自主决定何时调用图像检索、何时调用文本检索、何时生成答案，而不是依赖预定义的固定推理流程？这个问题重要在于：真实世界的视觉问答往往需要模型从图像出发，经过多步外部知识检索和跨模态信息整合才能得到答案。

方法详解¶

整体框架¶

MMhops-R1 包含两部分：(1) MMhops 数据集的构建；(2) 基于 RL 的动态多模态检索增强生成框架。

输入：一组图像 + 自然语言问题。模型在每个时间步先进行思考（thinking），然后从三个动作中选择一个：调用图像检索器（image_search）、调用文本检索器（text_search）、或生成最终答案（answer）。检索结果作为观察（observation）反馈给模型，循环交互直到生成答案或达到最大轮次（T=4）。

关键设计¶

MMhops 数据集构建：包含 Bridging（85%）和 Comparison（15%）两种推理类型。Bridging 通过迭代扩展法构建——从单跳 VQA 出发，以答案作为桥接实体，在其 Wikipedia 页面上生成新的子问题，再将子问题合并为多跳问题。Comparison 则从 Wikipedia 中找到语义相似的实体对，基于可量化属性生成比较问题，并用图像替换实体名。所有样本都需要 3-4 步推理，且必须使用外部知识。
动态动作空间与多步检索交互：模型的动作空间为 {think, image_search, text_search, answer}，其中 image_search 通过 CLIP 检索相关图像信息，text_search 通过 E5 模型检索 top-3 相关段落。每个动作都用特定 XML 标签格式化，如果格式错误会收到惩罚信号。这种设计让模型学会自主规划推理路径，而非依赖手动设计的流程。
复合奖励函数设计：总奖励 R = α·R_outcome + β·R_format + γ·R_action。R_outcome 是答案正确性的二值奖励；R_format 奖励格式正确；R_action 是工具使用奖励，关键设计是它被 outcome 和 format 门控——只有答案正确且格式规范时，工具使用才获得奖励，防止模型"乱调工具但答案错误"的行为。

损失函数 / 训练策略¶

基于 DAPO 的策略优化目标，使用 clip 操作和动态采样策略（每组 G=8 个响应至少包含一个正确样本）
Loss masking：外部检索返回的 token 不参与梯度计算，只优化模型自身生成的推理和动作 token
骨干模型为 Qwen2.5-VL-7B-Instruct，训练 1 个 epoch，lr=1e-6
知识库：100K Wikipedia 文章，每篇配一张图像

实验关键数据¶

数据集	指标	MMhops-R1 (7B)	Qwen2.5-VL-72B	GPT-4o	Gemini-2.5-Pro
MMhops Bridging	Overall	51.35	34.39	36.62	53.98
MMhops Comparison	Overall	22.01	7.59	8.76	29.39
INFOSEEK	Overall	33.2	-	-	-
E-VQA 2-hop	Acc	23.3	-	-	22.8 (PaLM)

消融实验要点¶

去掉 R_action 后 Bridging Overall 从 51.35 降到 47.57，Comparison 从 22.01 降到 20.62
去掉 R_format 后 Comparison 暴跌到 14.42，说明格式约束对跨图像推理特别重要
同时去掉 R_action 和 R_format，Bridging 降到 41.75，Comparison 降到 13.03
交互轮次从 2 增到 4 时性能持续提升（Overall 从 39.93 到 51.35），5 轮无显著收益但增加开销
4 步推理最适合 MMhops 数据集

亮点¶

RL 驱动的动态多模态 RAG：第一个将 RL 用于多模态多跳推理的工作，让模型自主学习何时/如何检索，而非靠 prompt engineering
门控式工具使用奖励：R_action 被 R_outcome 和 R_format 门控，优雅地避免了"乱调工具"的问题
7B 超 72B：通过 RL 训练，7B 模型在 Bridging 上超过 72B 直接推理 16.96%，充分说明推理能力可通过训练策略弥补模型规模差距
数据集构建方法可推广：迭代扩展法可以系统地将单跳数据集扩展为多跳数据集

局限性 / 可改进方向¶

知识库仅限 100K Wikipedia 文章，覆盖范围有限，扩大知识库可能进一步提升性能
Comparison 任务整体准确率仍然较低（最好的 Gemini-2.5-Pro 也只有 29.39%），跨图像推理仍是重大挑战
只在 Qwen2.5-VL-7B 上验证，未测试更大或不同架构的模型
最大交互轮次固定为 4，未探索动态终止策略
数据集构建依赖 GPT-4o，可能引入偏差

与相关工作的对比¶

vs Search-R1/ReSearch：这些方法将 RL 用于文本多跳 RAG，MMhops-R1 将此范式扩展到多模态，增加了图像检索动作
vs OmniSearch (Gemini)：OmniSearch 依赖手动 prompt 或 SFT 设计规划流程，缺乏自主学习策略的能力；MMhops-R1 的 RL 训练让 7B 模型超过 GPT-4o + OmniSearch
vs 传统 mRAG（Wiki-LLaVA, EchoSight）：传统方法为单跳设计，静态流程无法处理多跳问题

启发与关联¶

动态 mRAG + RL 的范式可以迁移到其他需要多步外部交互的任务（如复杂代码生成、科学推理）
门控奖励设计（工具使用奖励被答案正确性门控）是一个通用的 RL reward shaping 技巧
与 ideas/multimodal_vlm/20260318_vhd_adaptive_visual_reinjection.md 中的视觉信息动态注入思想有潜在关联
与 ideas/llm_nlp/20260317_retrieval_reasoning_decoupled_lct.md 中检索与推理解耦的思路互补

评分¶

新颖性: ⭐⭐⭐⭐ 第一个将 RL 应用于多模态多跳 RAG，数据集构建方法系统且可扩展
实验充分度: ⭐⭐⭐⭐ 多类 baseline 对比完整，消融实验覆盖主要设计，跨数据集泛化验证
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，数据集构建流程描述详细
价值: ⭐⭐⭐⭐ 提出了重要的 benchmark 和有效的方法，对多模态推理研究有推动作用