TruthfulRAG: Resolving Factual-level Conflicts in Retrieval-Augmented Generation with Knowledge Graphs¶
会议: AAAI 2026
arXiv: 2511.10375
代码: 无
领域: image_generation (实际为 NLP/RAG)
关键词: 知识冲突, 检索增强生成, 知识图谱, 事实级推理, 熵过滤
一句话总结¶
提出 TruthfulRAG 框架,首次利用知识图谱 (KG) 从事实级别解决 RAG 系统中检索知识与 LLM 参数知识之间的冲突,通过三元组提取、查询感知图检索和基于熵的冲突过滤机制提升生成准确性与可信度。
研究背景与动机¶
- 领域现状: 检索增强生成 (RAG) 已成为增强 LLM 能力的主流范式,通过引入外部知识来弥补模型参数知识的不足(如过时、不完整等问题)。
- 现有痛点: 随着外部知识库不断扩展、模型参数知识逐渐过时,检索到的外部信息与 LLM 内部知识之间不可避免地产生冲突(knowledge conflict),严重影响生成质量。
- 核心矛盾: 现有冲突解决方法要么在 token 级别(通过调整输出概率分布),要么在语义级别(通过语义对齐和整合),这些粗粒度策略依赖碎片化的数据表示,无法准确捕获复杂的事实依赖关系和细粒度事实不一致性。
- 本文目标: 在事实级别(factual-level)精确定位和解决 RAG 中的知识冲突。
- 切入角度: 利用知识图谱 (KG) 的结构化三元组表示来构建可靠的推理路径,增强 LLM 对外部知识的信心。
- 核心 idea: 通过构建知识图谱提取结构化三元组、查询感知图遍历获取相关推理路径、基于熵变化检测并过滤冲突路径,让 LLM 优先遵循准确的外部知识。
方法详解¶
整体框架¶
TruthfulRAG 包含三个模块串联工作:(1) Graph Construction 从检索内容中提取结构化知识三元组构建知识图谱;(2) Graph Retrieval 通过查询感知的图遍历找到与查询高度相关的推理路径;(3) Conflict Resolution 利用基于熵的过滤机制检测并解决参数知识与外部信息之间的事实冲突。
关键设计¶
-
Graph Construction(知识图谱构建):
- 功能:将 RAG 检索到的非结构化文本转换为结构化知识图谱
- 核心思路:对检索内容 \(C\) 进行语义分割得到文本段 \(\mathcal{S}=\{s_1,...,s_m\}\),利用 LLM 从每段中提取三元组 \(\mathcal{T}_{i,j}=(h,r,t)\)(头实体、关系、尾实体),聚合构建图 \(\mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{T}_{all})\)
- 设计动机:结构化三元组表示能过滤低信息噪声、捕获细粒度事实关联,为后续查询感知检索提供语义丰富的基础
-
Graph Retrieval(查询感知图检索):
- 功能:从知识图谱中检索与用户查询强相关的推理路径
- 核心思路:提取查询关键元素 \(\mathcal{K}_q\),通过语义相似度匹配找到 top-k 重要实体 \(\mathcal{E}_{imp}\) 和关系 \(\mathcal{R}_{imp}\);从重要实体出发做两跳图遍历收集初始路径;用 fact-aware 评分 \(\text{Ref}(p)=\alpha \cdot \frac{|e \in p \cap \mathcal{E}_{imp}|}{|\mathcal{E}_{imp}|} + \beta \cdot \frac{|r \in p \cap \mathcal{R}_{imp}|}{|\mathcal{R}_{imp}|}\) 筛选核心推理路径
- 设计动机:查询驱动的遍历确保检索到的知识在事实层面与查询高度相关,避免引入无关信息
-
Conflict Resolution(基于熵的冲突解决):
- 功能:检测并过滤与 LLM 参数知识存在事实冲突的推理路径
- 核心思路:分别计算纯参数生成和纳入推理路径后的输出熵 \(H(P_{param}(ans|q))\) 和 \(H(P_{aug}(ans|q,p))\),熵变化 \(\Delta H_p = H(P_{aug}) - H(P_{param})\);当 \(\Delta H_p > \tau\) 时,说明该路径挑战了 LLM 的参数知识(可能纠正其错误),将其标记为 corrective path
- 设计动机:正熵变化表示外部知识增加了不确定性(可能是因为与错误的参数知识冲突),这些 corrective paths 恰好是能纠正 LLM 内部错误认知的关键路径
损失函数 / 训练策略¶
TruthfulRAG 是一个推理时框架(inference-time framework),不涉及额外训练。核心超参数包括: - 熵变阈值 \(\tau\):GPT-4o-mini 和 Mistral 使用 \(\tau=1\),Qwen2.5 使用 \(\tau=3\) - 所有 Top-K 值设为 10 - 温度设为 0 保证可复现性
实验关键数据¶
主实验¶
| 数据集 | 指标 | TruthfulRAG (GPT-4o-mini) | FaithfulRAG | Standard RAG | 提升(vs RAG) |
|---|---|---|---|---|---|
| FaithEval | ACC | 69.5 | 67.2 | 61.3 | +8.2 |
| MuSiQue | ACC | 79.4 | 79.3 | 72.6 | +6.8 |
| RealtimeQA | ACC | 85.0 | 78.8 | 67.3 | +17.7 |
| SQuAD | ACC | 81.1 | 80.8 | 73.1 | +8.0 |
使用 Mistral-7B 时效果更突出:Avg ACC 达 81.3(Imp 66.1),显著领先所有基线。
消融实验¶
| 配置 | FaithEval (ACC/CPR) | MuSiQue (ACC/CPR) | 说明 |
|---|---|---|---|
| Standard RAG | 61.3/0.51 | 72.6/1.86 | 基线 |
| w/o Knowledge Graph | 64.8/0.52 | 78.9/1.15 | CPR 下降,难以精准提取 |
| w/o Conflict Resolution | 69.3/0.59 | 77.8/2.79 | CPR 高但准确率有限 |
| Full Method | 69.5/0.56 | 79.4/2.25 | 两模块协同最优 |
关键发现¶
- 结构化推理路径 vs 自然语言上下文:结构化路径在所有数据集上均带来更高的 logprob 值,说明 LLM 对知识图谱表示的信心更强
- 非冲突上下文中的表现:在 MuSiQue-golden(93.2)和 SQuAD-golden(98.3)上也优于基线,证明方法具有通用性
- KRE 方法在非冲突场景下性能严重下降(-45.8),而 TruthfulRAG 保持稳定
亮点与洞察¶
- 事实级粒度的冲突解决:相比 token/semantic 级别的方法,KG 三元组提供了更精确的知识对齐和冲突检测
- 熵变作为冲突信号:这是一个优雅的无监督冲突检测机制——如果外部知识增加了模型不确定性,恰好说明它在挑战(可能纠正)模型的错误认知
- 结构化表示增强信心:实验发现,将非结构化文本转为 KG 三元组表示会显著增强 LLM 对外部知识的信任度,这是一个重要的发现
- 即插即用框架:无需训练,可直接集成到现有 RAG 系统中
局限与展望¶
- KG 构建依赖 LLM 自身的三元组提取能力,如果提取不准确可能引入新的错误
- 基于熵的检测需要获取 LLM 的 token 概率分布,对部分闭源 API 可能受限
- 两跳图遍历的固定跳数可能不适合所有场景,多跳推理任务可能需要更深的遍历
- 计算开销:需要多次调用 LLM(三元组提取、参数/增强生成各一次),延迟较高
相关工作与启发¶
- vs FaithfulRAG: FaithfulRAG 通过自反思机制是语义级别的整合,而 TruthfulRAG 在事实级别通过 KG 结构化检测冲突,更精确
- vs KRE: KRE 依赖提示优化策略,在非冲突场景下性能大幅下降,而 TruthfulRAG 在两种场景下均表现稳定
- vs COIECD: COIECD 通过修改解码策略引导 LLM 偏向外部知识,但缺乏对冲突的精确定位
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将 KG 引入 RAG 冲突解决,事实级粒度是有意义的创新
- 实验充分度: ⭐⭐⭐⭐ 四个数据集、三个 LLM、多个基线、消融实验、信心分析完备
- 写作质量: ⭐⭐⭐⭐ 动机清晰、方法描述全面、图表丰富
- 价值: ⭐⭐⭐⭐ RAG 知识冲突是实际部署中的重要问题,方法实用性强
相关论文¶
- [NeurIPS 2025] Can Knowledge-Graph-based Retrieval Augmented Generation Really Retrieve What You Need?
- [AAAI 2026] Improved Masked Image Generation with Knowledge-Augmented Token Representations
- [ECCV 2024] GarmentAligner: Text-to-Garment Generation via Retrieval-augmented Multi-level Corrections
- [ACL 2026] VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval
- [CVPR 2026] When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance