跳转至

Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study Over Open-ended Question Answering

会议: ACL 2025
arXiv: 2410.08085
代码: https://github.com/Y-Sui/OKGQA
领域: LLM/NLP
关键词: 知识图谱, 大语言模型幻觉, 开放域问答, 检索增强生成, 子图检索, 基准测试

一句话总结

提出开放域知识图谱问答基准 OKGQA 及其扰动变体 OKGQA-P,通过统一的图引导检索-生成框架系统性地验证了 KG 增强可以有效降低 LLM 幻觉率(FActScore 提升约 20 个百分点),子图检索在各类查询上表现最优且对 KG 噪声具有鲁棒性。


研究背景与动机

  1. LLM 幻觉问题严峻:当代大语言模型容易产生听起来合理但事实错误的输出(幻觉),在医疗、科研等高风险领域危害尤其突出。
  2. KG 增强的潜力:知识图谱提供结构化、可溯源的事实信息,理论上可通过外部知识注入来提升 LLM 输出的可靠性与可信度。
  3. 现有基准的局限:已有 KGQA 基准(如 WebQSP、CWQ)主要关注闭合式任务,模型输出局限于固定实体/关系集合,无法有效检测幻觉——传统指标如 accuracy 无法区分检索错误与捏造回答。
  4. 开放域评测的必要性:在开放域设置中,LLM 需生成包含推理路径和支持事实的段落式回答,扩大的输出空间使得幻觉更容易暴露,也能利用 FActScore/SAFE 等指标直接量化幻觉率。
  5. KG 质量的现实挑战:现实中 KG 常包含标注错误、缺失关系等噪声,需要评估模型在 KG 被污染时的鲁棒性。
  6. 方法设计缺乏系统比较:不同 KG 检索粒度(三元组 vs. 路径 vs. 子图)对幻觉缓解效果的差异缺乏系统性对比分析。

方法详解

整体框架

本文提出基于 RAG 范式的统一 KG 增强框架,由两个核心组件构成:图引导检索(G-Retrieval) 从 KG 中提取与查询相关的知识子集 \(\mathcal{Z}^*\),以及图引导生成(G-Generator) 利用检索到的知识生成段落式回答。形式化为:

\[p(a|q) = \sum_{\mathcal{Z} \subseteq \mathcal{G}} p_\phi(a|q, \mathcal{Z}) \cdot p_\theta(\mathcal{Z}|q, \mathcal{G}) \approx p_\phi(a|q, \mathcal{Z}^*) \cdot p_\theta(\mathcal{Z}^*|q, \mathcal{G})\]

其中 \(\mathcal{Z}^* = \arg\max_{\mathcal{Z} \in \mathcal{G}} p_\theta(\mathcal{Z}|q, \mathcal{G})\),通过选择最优知识子集来近似求和。

关键设计

模块一:OKGQA 基准构建

  • 做什么:构建面向开放域 KGQA 的基准数据集,包含 850→2050 条多类型查询。
  • 核心思路:采用模板驱动的 LLM 生成方法产生五类查询(描述性、解释性、预测性、比较性、批判性),通过自动评分 \(s_{\text{auto}}\) 与人工评分 \(s_{\text{human}}\) 的迭代对齐优化查询质量。KG 子图从 DBpedia 的 2-hop 邻域中提取,使用 Personalized PageRank (PPR) 剪枝将平均 token 数从 348,715 压缩到 2,452。
  • 设计动机:闭合式基准无法检测幻觉,需要开放域设置让模型生成长文本以暴露事实错误;PPR 剪枝在保留相关信息的同时控制子图规模。

模块二:OKGQA-P 扰动基准

  • 做什么:通过四种边扰动方法模拟现实中 KG 质量不可靠的场景。
  • 核心思路:设计四种扰动策略——关系交换(RS)随机交换两条边的关系;关系替换(RR)将关系替换为语义最不相似的关系("harder negatives");边重连(ER)将目标实体替换为 1-hop 邻域外的实体;边删除(ED)直接删除边。通过控制扰动比例(0%–100%)调节噪声程度,并使用 ATS(语义相似度)、SC2D 和 SD2(结构相似度)量化偏离程度。
  • 设计动机:Wikidata 等平台虽有社区质控,但仍存在标注错误。OKGQA-P 通过系统性扰动评估方法鲁棒性,指导实际部署。

模块三:图引导检索(G-Retrieval)

  • 做什么:从 KG 中提取与查询最相关的知识子集,提供三种检索粒度。
  • 核心思路:将查询和 KG 元素编码到统一嵌入空间(使用 text-embedding-3-small),通过余弦相似度排名,采用 prize-cost 权衡策略——对 top-\(k\) 节点/边赋予递减奖励 \(p_v = \max(0, k - \text{rank}(v) + 1)\),扩展时施加代价 \(C_e\)
  • 三元组检索:选取总奖励最高的固定数量三元组;
  • 路径检索:从高奖励节点出发贪心扩展路径,最大化 \(S(\mathcal{P}) = \sum p_{v_i} + \sum p_{e_i} - \sum c_e\)
  • 子图检索:基于 Prize-Collecting Steiner Tree (PCST) 算法找到最大化总分的连通子图。
  • 设计动机:不同检索粒度提供不同程度的结构信息。三元组最简但缺乏上下文,路径保留推理链,子图提供最完整的关系结构。

模块四:评估体系

  • 做什么:建立覆盖幻觉率和回答质量的多维评估体系。
  • 核心思路:幻觉评估使用 FActScore(将回答分解为原子事实并对照 Wikipedia 验证)和 SAFE(用 LLM 代理迭代搜索验证);质量评估使用 G-Eval 框架的四个维度——上下文相关性、全面性、正确性、信息赋能。
  • 设计动机:单一指标无法全面刻画 KG 增强效果,需同时考量"说得对不对"(幻觉)和"说得好不好"(质量)。

损失函数/训练策略

本文为实证性基准研究,不涉及模型训练。所有实验使用预训练 LLM 的推理能力,设置 \(\text{temperature} = 0.7\)\(\text{top\_p} = 1.0\)。评估骨干为 gpt-4o-mini,经人工评估验证与人类判断高度一致。


实验关键数据

主实验:不同 KG 检索策略对幻觉的影响(GPT-4o 为例)

方法 Context Rel. Comprehensive. Correctness Empowerment SAFE FActScore
Zero-shot(无 KG) 68.12% 65.41% 60.41% 62.41% 82.47% 55.34%
4-shot(无 KG) 70.61% 67.43% 62.33% 64.51% 83.39% 57.45%
IRCoT(Wikipedia) 73.12% 69.23% 66.33% 65.51% 87.39% 69.45%
CoT+SC(无 KG) 75.81% 71.62% 66.55% 68.74% 79.03% 53.23%
KG-三元组 74.62% 70.44% 65.37% 67.12% 89.20% 72.53%
KG-路径 78.71% 74.53% 69.42% 71.63% 90.20% 75.61%
KG-子图 80.81% 76.63% 71.57% 73.70% 90.83% 75.33%
KG-子图+CoT+SC 82.90% 78.72% 73.64% 75.80% 89.12% 75.42%

消融实验:扰动级别对 FActScore 的影响(GPT-4o,子图检索 vs. 基线)

扰动方法 0% 10% 30% 50% 70% 100%
边删除-子图 75.33% ~73% ~68% ~60% ~53% ~40%
关系替换-子图 75.33% ~71% ~65% ~56% ~48% ~38%
边删除-三元组 72.53% ~69% ~62% ~52% <CoT <CoT
CoT+SC 基线 53.23%

注:扰动实验数据从 Figure 6 读取近似值。关键阈值:50% 扰动时三元组/路径退化至基线水平,子图仍优于基线。

关键发现

  • KG 信息显著降低幻觉:KG-三元组将 GPT-4o 的 FActScore 从 55.34% 提升至 72.53%(+17.19pp),子图进一步提升至 75.33%(+19.99pp)。
  • 内部推理反而可能加剧幻觉:CoT+SC 使 GPT-4o 的 SAFE 从 82.47% 下降至 79.03%,FActScore 从 55.34% 降至 53.23%,说明仅依赖内部推理不仅无法缓解幻觉,反而可能引入偏差。
  • 子图检索全面最优:在所有 5 类查询上,子图检索的 G-Eval 和 FActScore 均优于三元组/路径,尤其在简单查询(描述性、事件描述)上优势明显。
  • KG 增强优于传统 RAG:KG-三元组的 FActScore(72.53%)已超过 IRCoT(69.45%),子图检索 SAFE(90.83%)也优于 IRCoT(87.39%)。
  • 子图检索对噪声最鲁棒:在 50% 扰动下子图检索仍优于 CoT 基线,而三元组/路径检索在 50% 扰动时已退化至基线水平。
  • 开源模型同样受益:Llama-3.1-8B 和 Mistral-7B 使用 KG-子图后 FActScore 分别提升约 20pp 和 19pp。

亮点与洞察

  1. 开放域视角的独特价值:通过将 KGQA 从闭合式转向开放域,使得幻觉检测成为可能——这是一个简单但非常有影响力的实验设计转变。
  2. "CoT 加剧幻觉"的反直觉发现:CoT+SC 提升了回答质量(G-Eval↑)但同时增加了幻觉率(FActScore↓),揭示了推理过程中 LLM 可能"自圆其说"地编造事实。
  3. Prize-Cost 权衡的检索设计:将图检索形式化为 prize-cost 优化问题,提供了一个优雅且可扩展的统一框架来比较不同粒度的检索策略。
  4. OKGQA-P 的实用价值:系统性地量化 KG 噪声对下游性能的影响,给出了 50% 扰动阈值这一实用参考——现实中 Wikidata 等平台的错误率远低于此阈值。
  5. 子图的结构优势:子图通过 PCST 算法保留了实体间的连通结构,为 LLM 提供了更完整的推理上下文,这解释了其在复杂查询上的优势。

局限性/可改进方向

  1. 知识源单一:仅使用 DBpedia 作为知识源,缺乏对领域专用 KG(如生物医学 KG)的验证,泛化性存疑。
  2. 静态 KG 假设:未考虑动态更新的知识图谱场景,在需要实时知识的应用中适用性受限。
  3. 缺乏训练级集成:所有方法均为推理时增强(prompt 注入 KG 信息),未探索将 KG 知识融入模型训练/微调的方案。
  4. 检索开销未分析:三元组、路径、子图三种检索的计算成本和延迟对比缺失,实际部署时的效率-效果权衡不明确。
  5. 评估依赖 LLM:G-Eval 和 SAFE 均依赖 LLM 作为评判器,虽经人工验证但仍存在循环依赖风险。
  6. 可扩展至多模态 KG:未来可将框架扩展至包含图像、表格等多模态信息的知识图谱。

相关工作与启发

  • G-Retriever(He et al., 2024):本文子图检索方法的基础,使用 PCST 算法实现图-文本问答,但原始工作未聚焦幻觉评估。
  • FActScore(Min et al., 2023)与 SAFE(Wei et al., 2024):两种互补的幻觉量化指标,前者基于知识库验证,后者基于搜索引擎验证。
  • IRCoT(Trivedi et al., 2022):基于 Wikipedia 段落的交错检索-推理方法,本文证明 KG 结构化检索优于此类非结构化 RAG。
  • GraphRAG(Edge et al., 2024):从局部到全局的图 RAG 方法,与本文框架思路相近但侧重文本图而非 KG。
  • 启发:KG 增强与传统 RAG 的本质差异在于结构化关系的利用,未来可探索将 KG 结构编码为 LLM 可理解的推理链,而非仅作为文本 prompt 注入。

评分

  • 新颖性: ⭐⭐⭐ — 方法层面创新有限(主要是基准构建+已有方法的系统比较),但开放域视角和扰动评估是有价值的贡献。
  • 技术深度: ⭐⭐⭐ — 框架形式化清晰,检索方法涵盖全面,但缺乏理论分析和新算法设计。
  • 实验充分度: ⭐⭐⭐⭐⭐ — 5 个 LLM × 多种检索策略 × 多类查询 × 4 种扰动方法 × 多粒度扰动级别,实验极为详尽。
  • 实用价值: ⭐⭐⭐⭐ — OKGQA 基准和 50% 扰动阈值等发现对 KG+LLM 系统的实际设计有直接指导意义。