跳转至

CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG

会议: ACL 2025
arXiv: 2506.02544
代码: https://github.com/TyangJN/CoRe-MMRAG
领域: LLM Agent / 多模态VLM / RAG
关键词: multimodal RAG, knowledge inconsistency, visual-textual reconciliation, KB-VQA

一句话总结

CoRe-MMRAG 提出了一个端到端多模态 RAG 框架,通过四阶段流水线(参数知识生成→视觉-文本联合重排序→外部知识生成→内外知识整合)解决参数知识-检索知识不一致(PRKI)和视觉-文本知识不一致(VTKI)两个问题,在 InfoSeek 和 Encyclopedic-VQA 上分别提升 5.6% 和 9.3%。

研究背景与动机

  1. 领域现状:多模态 RAG (MMRAG) 通过检索外部图文知识增强 MLLM,用于知识密集型视觉问答(KB-VQA)。
  2. 现有痛点
  3. PRKI(参数-检索知识不一致):检索到的信息可能与模型内部知识矛盾,模型难以判断哪个更可靠——噪声检索可能覆盖正确的参数知识
  4. VTKI(视觉-文本知识不一致):检索条目的图像和文本可能指向不同实体,纯文本重排序会选错条目
  5. 现有 MMRAG 方法(Wiki-LLaVA、RoRA-VLM 等)在重排序阶段仅依赖文本相似度,忽略了跨模态不一致
  6. 核心矛盾:MMRAG 引入了外部知识但也引入了两种不一致性,现有方法缺乏显式的不一致性调和机制
  7. 本文要解决什么? 设计框架同时解决 PRKI 和 VTKI,让 MLLM 能可靠地整合多源多模态知识
  8. 切入角度:类似 Astute RAG 的"先内后外再整合"思路,但扩展到多模态场景并加入视觉-文本联合评估
  9. 核心 idea 一句话:先用参数知识生成参考答案,再用联合视觉-文本相似度选最相关检索条目,最后对比内外部答案做可靠性整合。

方法详解

整体框架

四阶段端到端流水线:(1) 仅用参数知识生成内部答案 \(y^{int}\)(2) 联合视觉+文本相似度评估,选最相关检索条目 → (3) 基于最佳检索条目生成外部答案 \(y^{ext}\)(4) 对比 \(y^{int}\)\(y^{ext}\),整合最可靠信息生成最终答案 \(y^*\)

关键设计

  1. 联合视觉-文本知识整合(解决 VTKI)
  2. 做什么:同时考虑图像和文本的相关性来选择最佳检索条目
  3. 核心思路:\(I^{tv} = \arg\max_i r^\mathcal{M}(Q, \{V_i, T_i\}_{i=1}^k)\)——不分别对图像和文本排序,而是联合评估
  4. 设计动机:图像和文本各自的排序可能不一致(\(I^v \neq I^t\)),联合排序利用跨模态互补性

  5. 参数-检索知识整合(解决 PRKI)

  6. 做什么:显式对比内部和外部答案,判断可靠性后生成最终答案
  7. 核心思路:\(y^* = \mathcal{M}(Q, y^{int}, y^{ext}, (V_{I^{tv}}, T_{I^{tv}}))\)——模型同时看到内部参考、外部参考和检索证据
  8. 设计动机:给模型"第二次判断"的机会——看到两个可能冲突的答案后,结合证据做最终选择

  9. 不一致性感知的训练范式

  10. 三个训练目标:
    • 知识来源选择:筛选模型单独用参数知识正确 vs 单独用外部知识正确的样本,训练模型区分什么时候该信任谁
    • 多模态选择:训练模型做联合视觉-文本重排序
    • 统一答案生成:训练四阶段整体流水线的端到端生成
  11. 设计动机:自训练(STaR 启发)不需要额外标注,利用模型自己的"偏差"构造训练数据

实验关键数据

主实验

方法 InfoSeek Encyclopedic-VQA
Qwen2-VL-7B (baseline) - -
Wiki-LLaVA
RoRA-VLM
CoRe-MMRAG +5.6% +9.3%

消融实验

配置 InfoSeek
Full CoRe-MMRAG 最高
w/o Step 1 (无参数知识) 下降~3%
w/o 联合排序 (仅文本排序) 下降~2%
w/o Step 4 (无整合,直接用外部) 下降~4%
w/o 训练范式 (zero-shot) 下降~5%

关键发现

  • 参数知识参考(Step 1)对最终答案质量至关重要:去掉后下降 3%,因为模型失去了"比较锚点"
  • 联合视觉-文本排序优于单模态排序:文本排序偏差被视觉信息纠正
  • 训练范式的贡献最大(~5%):说明模型需要学习如何判断知识来源可靠性

亮点与洞察

  • PRKI 和 VTKI 的形式化是重要贡献:将multi-modal RAG 中模糊的"噪声"问题拆解为两个明确的不一致类型,为后续研究提供了清晰的问题框架
  • "先内后外再整合"的四阶段设计与 Astute RAG 异曲同工:在多模态领域验证了这种知识调和范式的普适性
  • 自训练范式构造训练数据的方式很聪明:利用模型在有/无检索条件下的表现差异自动构造标签,无需人工标注

局限性 / 可改进方向

  • 仅在 KB-VQA 上测试:更通用的多模态任务未覆盖
  • 基础模型仅 Qwen2-VL-7B:不确定在更大/更强模型上的 gain 是否一致
  • 端到端推理成本高:四阶段需要模型生成多次,推理延迟增加

相关工作与启发

  • vs Astute RAG:Astute RAG 解决文本 RAG 的 PRKI,CoRe-MMRAG 扩展到多模态并增加 VTKI 解决
  • vs Wiki-LLaVA:Wiki-LLaVA 简单地将检索文本注入 prompt,不处理不一致性
  • vs EchoSight:EchoSight 用视觉检索但仅用文本重排序,CoRe-MMRAG 做联合排序

评分

  • 新颖性: ⭐⭐⭐⭐ VTKI+PRKI 形式化清晰,四阶段调和设计合理
  • 实验充分度: ⭐⭐⭐⭐ 两个 benchmark+消融+zero-shot 和 fine-tuned 对比
  • 写作质量: ⭐⭐⭐⭐ 形式化定义清晰,框架图直观
  • 价值: ⭐⭐⭐⭐ 对多模态 RAG 的知识不一致问题有明确解决方案