CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation¶

会议: ACL 2025
arXiv: 2503.19878
代码: https://github.com/Pwnb/CausalRAG (有)
领域: RAG / 因果推理
关键词: 检索增强生成, 因果图, 知识图谱, 文档问答, 图索引

一句话总结¶

提出 CausalRAG，将因果图集成到 RAG 的检索过程中——从文档构建文本图并识别因果关系，在查询时通过因果路径发现和因果摘要生成来检索上下文，在文档问答中显著提升上下文精度（92.86%）和检索召回率。

领域现状：RAG 通过检索外部知识来增强 LLM 的事实性。标准 RAG 基于文本分块+语义相似度检索，GraphRAG 则构建知识图谱辅助检索。
现有痛点：(1) 标准 RAG 的文本分块会破坏文档结构和因果链；(2) 语义相似度不等于因果相关性——相似词不意味着因果关系；(3) GraphRAG 在检索精度和召回率之间存在 tradeoff（Local 精度高但召回低，Global 反之）。
核心矛盾：很多复杂问题需要沿因果链推理（A 导致 B 导致 C），但语义相似度检索无法感知这种链式关系。
本文要解决什么：如何让 RAG 系统理解并利用文档中的因果关系进行检索？
切入角度：在图索引阶段识别因果关系（用 LLM），在查询阶段发现相关因果路径，生成因果摘要作为检索上下文。
核心 idea：图索引 → 因果路径发现 → 因果摘要，三步实现因果感知的 RAG。

三个主要步骤：(1) 图索引：从文档中提取实体和关系，构建文本图，用 LLM 识别因果关系；(2) 因果路径发现：查询时找到与问题相关的因果路径；(3) 因果上下文检索：沿因果路径生成因果摘要，作为 LLM 的生成上下文。

方法	Answer Faithfulness↑	Context Precision↑	Context Recall↑
GraphRAG-Local	78.18	89.18	41.54
GraphRAG-Global	55.27	66.67	47.22
HippoRAG2	67.36	73.72	47.22
CausalRAG	78.00	92.86	49.46

因果路径检索在精度和召回上同时优于 GraphRAG: Context Precision 92.86（+3.68 vs GraphRAG-Local），Context Recall 49.46（+7.92 vs GraphRAG-Local）
文档越长，CausalRAG 优势越大：从摘要（72.43）到全文（91.69），CausalRAG 在长文档上提升更显著
因果推理减少幻觉：Answer Faithfulness 78.00，接近最佳的 GraphRAG-Local 78.18，但 precision 更高

"因果关系 > 语义相似度"用于检索：这是核心洞察。很多 RAG 失败案例是因为检索到语义相关但因果无关的内容，CausalRAG 通过因果路径有效解决了这个问题
无需训练的即插即用方案：完全基于 LLM 能力，不需要额外训练，易于部署
k 和 s 的渐进分析：提供了检索深度/广度与性能的清晰 tradeoff 指导