CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG¶
会议: ACL 2025
arXiv: 2506.02544
代码: https://github.com/TyangJN/CoRe-MMRAG
领域: LLM Agent / 多模态VLM / RAG
关键词: multimodal RAG, knowledge inconsistency, visual-textual reconciliation, KB-VQA
一句话总结¶
CoRe-MMRAG 提出了一个端到端多模态 RAG 框架,通过四阶段流水线(参数知识生成→视觉-文本联合重排序→外部知识生成→内外知识整合)解决参数知识-检索知识不一致(PRKI)和视觉-文本知识不一致(VTKI)两个问题,在 InfoSeek 和 Encyclopedic-VQA 上分别提升 5.6% 和 9.3%。
研究背景与动机¶
- 领域现状:多模态 RAG (MMRAG) 通过检索外部图文知识增强 MLLM,用于知识密集型视觉问答(KB-VQA)。
- 现有痛点:
- PRKI(参数-检索知识不一致):检索到的信息可能与模型内部知识矛盾,模型难以判断哪个更可靠——噪声检索可能覆盖正确的参数知识
- VTKI(视觉-文本知识不一致):检索条目的图像和文本可能指向不同实体,纯文本重排序会选错条目
- 现有 MMRAG 方法(Wiki-LLaVA、RoRA-VLM 等)在重排序阶段仅依赖文本相似度,忽略了跨模态不一致
- 核心矛盾:MMRAG 引入了外部知识但也引入了两种不一致性,现有方法缺乏显式的不一致性调和机制
- 本文要解决什么? 设计框架同时解决 PRKI 和 VTKI,让 MLLM 能可靠地整合多源多模态知识
- 切入角度:类似 Astute RAG 的"先内后外再整合"思路,但扩展到多模态场景并加入视觉-文本联合评估
- 核心 idea 一句话:先用参数知识生成参考答案,再用联合视觉-文本相似度选最相关检索条目,最后对比内外部答案做可靠性整合。
方法详解¶
整体框架¶
四阶段端到端流水线:(1) 仅用参数知识生成内部答案 \(y^{int}\) → (2) 联合视觉+文本相似度评估,选最相关检索条目 → (3) 基于最佳检索条目生成外部答案 \(y^{ext}\) → (4) 对比 \(y^{int}\) 和 \(y^{ext}\),整合最可靠信息生成最终答案 \(y^*\)。
关键设计¶
- 联合视觉-文本知识整合(解决 VTKI):
- 做什么:同时考虑图像和文本的相关性来选择最佳检索条目
- 核心思路:\(I^{tv} = \arg\max_i r^\mathcal{M}(Q, \{V_i, T_i\}_{i=1}^k)\)——不分别对图像和文本排序,而是联合评估
-
设计动机:图像和文本各自的排序可能不一致(\(I^v \neq I^t\)),联合排序利用跨模态互补性
-
参数-检索知识整合(解决 PRKI):
- 做什么:显式对比内部和外部答案,判断可靠性后生成最终答案
- 核心思路:\(y^* = \mathcal{M}(Q, y^{int}, y^{ext}, (V_{I^{tv}}, T_{I^{tv}}))\)——模型同时看到内部参考、外部参考和检索证据
-
设计动机:给模型"第二次判断"的机会——看到两个可能冲突的答案后,结合证据做最终选择
-
不一致性感知的训练范式:
- 三个训练目标:
- 知识来源选择:筛选模型单独用参数知识正确 vs 单独用外部知识正确的样本,训练模型区分什么时候该信任谁
- 多模态选择:训练模型做联合视觉-文本重排序
- 统一答案生成:训练四阶段整体流水线的端到端生成
- 设计动机:自训练(STaR 启发)不需要额外标注,利用模型自己的"偏差"构造训练数据
实验关键数据¶
主实验¶
| 方法 | InfoSeek | Encyclopedic-VQA |
|---|---|---|
| Qwen2-VL-7B (baseline) | - | - |
| Wiki-LLaVA | 低 | 低 |
| RoRA-VLM | 中 | 中 |
| CoRe-MMRAG | +5.6% | +9.3% |
消融实验¶
| 配置 | InfoSeek |
|---|---|
| Full CoRe-MMRAG | 最高 |
| w/o Step 1 (无参数知识) | 下降~3% |
| w/o 联合排序 (仅文本排序) | 下降~2% |
| w/o Step 4 (无整合,直接用外部) | 下降~4% |
| w/o 训练范式 (zero-shot) | 下降~5% |
关键发现¶
- 参数知识参考(Step 1)对最终答案质量至关重要:去掉后下降 3%,因为模型失去了"比较锚点"
- 联合视觉-文本排序优于单模态排序:文本排序偏差被视觉信息纠正
- 训练范式的贡献最大(~5%):说明模型需要学习如何判断知识来源可靠性
亮点与洞察¶
- PRKI 和 VTKI 的形式化是重要贡献:将multi-modal RAG 中模糊的"噪声"问题拆解为两个明确的不一致类型,为后续研究提供了清晰的问题框架
- "先内后外再整合"的四阶段设计与 Astute RAG 异曲同工:在多模态领域验证了这种知识调和范式的普适性
- 自训练范式构造训练数据的方式很聪明:利用模型在有/无检索条件下的表现差异自动构造标签,无需人工标注
局限性 / 可改进方向¶
- 仅在 KB-VQA 上测试:更通用的多模态任务未覆盖
- 基础模型仅 Qwen2-VL-7B:不确定在更大/更强模型上的 gain 是否一致
- 端到端推理成本高:四阶段需要模型生成多次,推理延迟增加
相关工作与启发¶
- vs Astute RAG:Astute RAG 解决文本 RAG 的 PRKI,CoRe-MMRAG 扩展到多模态并增加 VTKI 解决
- vs Wiki-LLaVA:Wiki-LLaVA 简单地将检索文本注入 prompt,不处理不一致性
- vs EchoSight:EchoSight 用视觉检索但仅用文本重排序,CoRe-MMRAG 做联合排序
评分¶
- 新颖性: ⭐⭐⭐⭐ VTKI+PRKI 形式化清晰,四阶段调和设计合理
- 实验充分度: ⭐⭐⭐⭐ 两个 benchmark+消融+zero-shot 和 fine-tuned 对比
- 写作质量: ⭐⭐⭐⭐ 形式化定义清晰,框架图直观
- 价值: ⭐⭐⭐⭐ 对多模态 RAG 的知识不一致问题有明确解决方案