CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG¶

会议: ACL 2025
arXiv: 2506.02544
代码: https://github.com/TyangJN/CoRe-MMRAG
领域: LLM Agent / 多模态VLM / RAG
关键词: multimodal RAG, knowledge inconsistency, visual-textual reconciliation, KB-VQA

一句话总结¶

CoRe-MMRAG 提出了一个端到端多模态 RAG 框架，通过四阶段流水线（参数知识生成→视觉-文本联合重排序→外部知识生成→内外知识整合）解决参数知识-检索知识不一致(PRKI)和视觉-文本知识不一致(VTKI)两个问题，在 InfoSeek 和 Encyclopedic-VQA 上分别提升 5.6% 和 9.3%。

研究背景与动机¶

领域现状：多模态 RAG (MMRAG) 通过检索外部图文知识增强 MLLM，用于知识密集型视觉问答（KB-VQA）。
现有痛点：
PRKI（参数-检索知识不一致）：检索到的信息可能与模型内部知识矛盾，模型难以判断哪个更可靠——噪声检索可能覆盖正确的参数知识
VTKI（视觉-文本知识不一致）：检索条目的图像和文本可能指向不同实体，纯文本重排序会选错条目
现有 MMRAG 方法（Wiki-LLaVA、RoRA-VLM 等）在重排序阶段仅依赖文本相似度，忽略了跨模态不一致
核心矛盾：MMRAG 引入了外部知识但也引入了两种不一致性，现有方法缺乏显式的不一致性调和机制
本文要解决什么？ 设计框架同时解决 PRKI 和 VTKI，让 MLLM 能可靠地整合多源多模态知识
切入角度：类似 Astute RAG 的"先内后外再整合"思路，但扩展到多模态场景并加入视觉-文本联合评估
核心 idea 一句话：先用参数知识生成参考答案，再用联合视觉-文本相似度选最相关检索条目，最后对比内外部答案做可靠性整合。

方法详解¶

整体框架¶

四阶段端到端流水线：(1) 仅用参数知识生成内部答案 \(y^{int}\) → (2) 联合视觉+文本相似度评估，选最相关检索条目 → (3) 基于最佳检索条目生成外部答案 \(y^{ext}\) → (4) 对比 \(y^{int}\) 和 \(y^{ext}\)，整合最可靠信息生成最终答案 \(y^*\)。

关键设计¶

联合视觉-文本知识整合（解决 VTKI）：
做什么：同时考虑图像和文本的相关性来选择最佳检索条目
核心思路：\(I^{tv} = \arg\max_i r^\mathcal{M}(Q, \{V_i, T_i\}_{i=1}^k)\)——不分别对图像和文本排序，而是联合评估
设计动机：图像和文本各自的排序可能不一致（\(I^v \neq I^t\)），联合排序利用跨模态互补性
参数-检索知识整合（解决 PRKI）：
做什么：显式对比内部和外部答案，判断可靠性后生成最终答案
核心思路：\(y^* = \mathcal{M}(Q, y^{int}, y^{ext}, (V_{I^{tv}}, T_{I^{tv}}))\)——模型同时看到内部参考、外部参考和检索证据
设计动机：给模型"第二次判断"的机会——看到两个可能冲突的答案后，结合证据做最终选择
不一致性感知的训练范式：
三个训练目标：
- 知识来源选择：筛选模型单独用参数知识正确 vs 单独用外部知识正确的样本，训练模型区分什么时候该信任谁
- 多模态选择：训练模型做联合视觉-文本重排序
- 统一答案生成：训练四阶段整体流水线的端到端生成
设计动机：自训练（STaR 启发）不需要额外标注，利用模型自己的"偏差"构造训练数据

实验关键数据¶

主实验¶

方法	InfoSeek	Encyclopedic-VQA
Qwen2-VL-7B (baseline)	-	-
Wiki-LLaVA	低	低
RoRA-VLM	中	中
CoRe-MMRAG	+5.6%	+9.3%

消融实验¶

配置	InfoSeek
Full CoRe-MMRAG	最高
w/o Step 1 (无参数知识)	下降~3%
w/o 联合排序 (仅文本排序)	下降~2%
w/o Step 4 (无整合，直接用外部)	下降~4%
w/o 训练范式 (zero-shot)	下降~5%

关键发现¶

参数知识参考（Step 1）对最终答案质量至关重要：去掉后下降 3%，因为模型失去了"比较锚点"
联合视觉-文本排序优于单模态排序：文本排序偏差被视觉信息纠正
训练范式的贡献最大（~5%）：说明模型需要学习如何判断知识来源可靠性

亮点与洞察¶

PRKI 和 VTKI 的形式化是重要贡献：将multi-modal RAG 中模糊的"噪声"问题拆解为两个明确的不一致类型，为后续研究提供了清晰的问题框架
"先内后外再整合"的四阶段设计与 Astute RAG 异曲同工：在多模态领域验证了这种知识调和范式的普适性
自训练范式构造训练数据的方式很聪明：利用模型在有/无检索条件下的表现差异自动构造标签，无需人工标注

局限性 / 可改进方向¶

仅在 KB-VQA 上测试：更通用的多模态任务未覆盖
基础模型仅 Qwen2-VL-7B：不确定在更大/更强模型上的 gain 是否一致
端到端推理成本高：四阶段需要模型生成多次，推理延迟增加

评分¶

新颖性: ⭐⭐⭐⭐ VTKI+PRKI 形式化清晰，四阶段调和设计合理
实验充分度: ⭐⭐⭐⭐ 两个 benchmark+消融+zero-shot 和 fine-tuned 对比
写作质量: ⭐⭐⭐⭐ 形式化定义清晰，框架图直观
价值: ⭐⭐⭐⭐ 对多模态 RAG 的知识不一致问题有明确解决方案