跳转至

Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models

会议: ACL 2025
arXiv: 2410.07176
代码: 无(Google Cloud AI Research)
领域: LLM Agent / RAG
关键词: RAG robustness, knowledge conflict, internal knowledge, source-aware consolidation, imperfect retrieval

一句话总结

Astute RAG 提出了一种对不完美检索具有鲁棒性的 RAG 方法,通过自适应生成 LLM 内部知识作为补充、带有来源标注的知识整合、以及基于可靠性的答案生成三个步骤,在 Gemini 和 Claude 上显著优于现有鲁棒 RAG 方法,且是唯一在最坏情况下(检索全部无用)不劣于无 RAG 基线的方法。

研究背景与动机

  1. 领域现状:RAG 通过检索外部知识增强 LLM,但检索质量不可控——约 70% 检索到的文档不直接包含正确答案(Google Search 实测)。
  2. 现有痛点
  3. 不完美检索不可避免:受语料质量、检索器能力、查询复杂度限制
  4. 知识冲突是核心瓶颈:19.2% 的样本中 LLM 内部知识与外部检索知识冲突,且冲突时两者各有约 50% 概率正确——不能简单地总是信任外部或内部
  5. 现有鲁棒方法不够:RobustRAG、InstructRAG 等不显式利用 LLM 内部知识,在大多数检索结果有问题时严重退化
  6. 核心矛盾:RAG 系统在检索质量低时反而不如不用 RAG,但放弃检索又丢失了有价值的外部知识
  7. 本文要解决什么? 让 RAG 在不完美检索下仍然可靠,解决内外部知识冲突
  8. 切入角度:用 LLM 自己的知识作为"第二来源",与外部检索结果对照,通过来源标注的整合机制判断可靠性
  9. 核心 idea 一句话:将 LLM 内部知识显式生成为"passages",与外部检索 passages 一起做带来源标注的知识整合,根据一致性和来源可靠性决定最终答案。

方法详解

整体框架

Query + Retrieved Passages → Step 1: LLM 自适应生成内部知识 passages → Step 2: 内外部 passages 合并 + 来源标注 + 迭代知识整合 → Step 3: 基于可靠性的最终答案生成。

关键设计

  1. Adaptive Internal Knowledge Generation(自适应内部知识生成)
  2. 做什么:让 LLM 根据问题生成最多 \(\hat{m}\) 条内部知识 passages
  3. 核心思路:用 constitutional principles 指导生成——强调准确、相关、无幻觉;LLM 自主决定生成几条(可以是 0 条)
  4. 设计动机:(1) 内部知识提供"第二意见"用于交叉验证 (2) 自适应数量避免强制生成低质量 passages (3) 与 GenRead (Yu et al., 2023) 的区别在于强调可靠性而非多样性

  5. Source-aware Knowledge Consolidation(带来源标注的知识整合)

  6. 做什么:将内外部 passages 合并后让 LLM 做带来源信息的整合分析
  7. 核心思路:
    • 合并:\(D_0 = E \oplus I\)(外部 passages + 内部 passages)
    • 来源标注:每条 passage 附带来源标识(内部 vs 外部网站URL)
    • 整合:LLM 被指示 (1) 合并一致的信息 (2) 识别冲突信息 (3) 过滤无关信息
    • 迭代:可多轮整合,每轮基于上一轮结果优化
  8. 设计动机:来源信息帮助 LLM 评估可靠性(如知名网站 > 内部猜测);迭代整合逐步消解冲突

  9. Answer Finalization(答案生成)

  10. 做什么:基于整合后的信息生成最终答案
  11. 核心思路:最终 prompt 要求 LLM 综合一致信息提出候选答案,对冲突信息比较两侧来源可靠性,选择最可信的答案
  12. 设计动机:避免简单多数投票或盲目信任外部知识

训练策略

  • Zero training, black-box friendly:纯 prompt 方法,不需要训练或微调
  • 适用于 Claude、Gemini、Mistral 等商业/开源模型

实验关键数据

主实验(Claude 3.5 Sonnet)

方法 NQ TriviaQA BioASQ PopQA Avg
No RAG 52.3 85.0 46.4 49.2 58.2
Naive RAG 60.8 87.3 51.2 51.5 62.7
RobustRAG 57.2 85.8 49.0 50.1 60.5
InstructRAG 59.5 86.5 50.5 50.8 61.8
Astute RAG 63.5 88.1 54.3 53.2 64.8

最坏情况(检索精度=0%)

方法 Avg Accuracy
No RAG 58.2
Naive RAG 42.1 (-16.1)
RobustRAG 48.5 (-9.7)
Astute RAG 59.0 (+0.8)

关键发现

  • Astute RAG 是唯一在最坏情况下不退化的 RAG 方法:所有其他 RAG 方法在检索全部无关时严重退化,Astute RAG 反而微超 No RAG
  • 知识冲突率与检索精度强相关:检索精度 10% 时冲突率最高,0% 时冲突率反而较低(因为全部无关 ≠ 全部错误)
  • 内外部知识互纠能力相当:冲突时内部知识正确 47.4%,外部正确 52.6%——两者不可偏废
  • 来源标注对知识整合至关重要:去掉来源信息后性能显著下降
  • 迭代整合有收益但边际递减:2 轮通常足够,更多轮收益很小

亮点与洞察

  • "最坏情况不退化"是 RAG 系统最重要的安全保证:在检索全部失败时不损害原始 LLM 性能——这对高风险应用(医疗、法律)至关重要。可迁移到任何 RAG 系统作为安全底线
  • 来源标注的知识整合思路很有启发:不是简单地"加入内部知识作为额外 passage",而是显式标注来源让 LLM 做可靠性判断——这类似于人类评估信息时会考虑信息来源
  • 内外部知识互纠约各 50% 的实证数据:打破了"外部检索总是更可靠"的假设,为双向知识融合提供了统计支持

局限性 / 可改进方向

  • LLM 调用次数增加:自适应生成 + 迭代整合需要多次 LLM 调用,延迟和成本增加
  • 依赖 LLM 的自我知识评估能力:如果 LLM "不知道自己不知道什么",生成的内部知识可能包含幻觉
  • 实验主要基于 QA 任务:在长文档摘要、多轮对话等任务上的效果未验证
  • 未开源代码:可复现性受限

相关工作与启发

  • vs RobustRAG (Xiang et al., 2024):RobustRAG 独立处理每条 passage 再聚合,不利用内部知识;Astute RAG 显式融合内外部知识
  • vs GenRead (Yu et al., 2023):GenRead 用 LLM 生成 passage 替代检索,Astute RAG 将生成与检索结合而非替代
  • vs Self-RAG (Asai et al., 2024):Self-RAG 需要训练反思 token,Astute RAG 纯 prompt 方法适用于黑盒模型

评分

  • 新颖性: ⭐⭐⭐⭐ 来源标注整合机制新颖,最坏情况不退化的设计目标独到
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 数据集 × 3 模型 × 多种检索精度级别,分析非常全面
  • 写作质量: ⭐⭐⭐⭐⭐ 问题分析→方法设计的逻辑链条极为清晰
  • 价值: ⭐⭐⭐⭐⭐ 对 RAG 鲁棒性有重大贡献,Google Cloud AI Research 出品