Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study Over Open-ended Question Answering¶
会议: ACL 2025
arXiv: 2410.08085
代码: https://github.com/Y-Sui/OKGQA
领域: LLM/NLP
关键词: 知识图谱, 大语言模型幻觉, 开放域问答, 检索增强生成, 子图检索, 基准测试
一句话总结¶
提出开放域知识图谱问答基准 OKGQA 及其扰动变体 OKGQA-P,通过统一的图引导检索-生成框架系统性地验证了 KG 增强可以有效降低 LLM 幻觉率(FActScore 提升约 20 个百分点),子图检索在各类查询上表现最优且对 KG 噪声具有鲁棒性。
研究背景与动机¶
- LLM 幻觉问题严峻:当代大语言模型容易产生听起来合理但事实错误的输出(幻觉),在医疗、科研等高风险领域危害尤其突出。
- KG 增强的潜力:知识图谱提供结构化、可溯源的事实信息,理论上可通过外部知识注入来提升 LLM 输出的可靠性与可信度。
- 现有基准的局限:已有 KGQA 基准(如 WebQSP、CWQ)主要关注闭合式任务,模型输出局限于固定实体/关系集合,无法有效检测幻觉——传统指标如 accuracy 无法区分检索错误与捏造回答。
- 开放域评测的必要性:在开放域设置中,LLM 需生成包含推理路径和支持事实的段落式回答,扩大的输出空间使得幻觉更容易暴露,也能利用 FActScore/SAFE 等指标直接量化幻觉率。
- KG 质量的现实挑战:现实中 KG 常包含标注错误、缺失关系等噪声,需要评估模型在 KG 被污染时的鲁棒性。
- 方法设计缺乏系统比较:不同 KG 检索粒度(三元组 vs. 路径 vs. 子图)对幻觉缓解效果的差异缺乏系统性对比分析。
方法详解¶
整体框架¶
本文提出基于 RAG 范式的统一 KG 增强框架,由两个核心组件构成:图引导检索(G-Retrieval) 从 KG 中提取与查询相关的知识子集 \(\mathcal{Z}^*\),以及图引导生成(G-Generator) 利用检索到的知识生成段落式回答。形式化为:
\[p(a|q) = \sum_{\mathcal{Z} \subseteq \mathcal{G}} p_\phi(a|q, \mathcal{Z}) \cdot p_\theta(\mathcal{Z}|q, \mathcal{G}) \approx p_\phi(a|q, \mathcal{Z}^*) \cdot p_\theta(\mathcal{Z}^*|q, \mathcal{G})\]
其中 \(\mathcal{Z}^* = \arg\max_{\mathcal{Z} \in \mathcal{G}} p_\theta(\mathcal{Z}|q, \mathcal{G})\),通过选择最优知识子集来近似求和。
关键设计¶
模块一:OKGQA 基准构建¶
- 做什么:构建面向开放域 KGQA 的基准数据集,包含 850→2050 条多类型查询。
- 核心思路:采用模板驱动的 LLM 生成方法产生五类查询(描述性、解释性、预测性、比较性、批判性),通过自动评分 \(s_{\text{auto}}\) 与人工评分 \(s_{\text{human}}\) 的迭代对齐优化查询质量。KG 子图从 DBpedia 的 2-hop 邻域中提取,使用 Personalized PageRank (PPR) 剪枝将平均 token 数从 348,715 压缩到 2,452。
- 设计动机:闭合式基准无法检测幻觉,需要开放域设置让模型生成长文本以暴露事实错误;PPR 剪枝在保留相关信息的同时控制子图规模。
模块二:OKGQA-P 扰动基准¶
- 做什么:通过四种边扰动方法模拟现实中 KG 质量不可靠的场景。
- 核心思路:设计四种扰动策略——关系交换(RS)随机交换两条边的关系;关系替换(RR)将关系替换为语义最不相似的关系("harder negatives");边重连(ER)将目标实体替换为 1-hop 邻域外的实体;边删除(ED)直接删除边。通过控制扰动比例(0%–100%)调节噪声程度,并使用 ATS(语义相似度)、SC2D 和 SD2(结构相似度)量化偏离程度。
- 设计动机:Wikidata 等平台虽有社区质控,但仍存在标注错误。OKGQA-P 通过系统性扰动评估方法鲁棒性,指导实际部署。
模块三:图引导检索(G-Retrieval)¶
- 做什么:从 KG 中提取与查询最相关的知识子集,提供三种检索粒度。
- 核心思路:将查询和 KG 元素编码到统一嵌入空间(使用 text-embedding-3-small),通过余弦相似度排名,采用 prize-cost 权衡策略——对 top-\(k\) 节点/边赋予递减奖励 \(p_v = \max(0, k - \text{rank}(v) + 1)\),扩展时施加代价 \(C_e\):
- 三元组检索:选取总奖励最高的固定数量三元组;
- 路径检索:从高奖励节点出发贪心扩展路径,最大化 \(S(\mathcal{P}) = \sum p_{v_i} + \sum p_{e_i} - \sum c_e\);
- 子图检索:基于 Prize-Collecting Steiner Tree (PCST) 算法找到最大化总分的连通子图。
- 设计动机:不同检索粒度提供不同程度的结构信息。三元组最简但缺乏上下文,路径保留推理链,子图提供最完整的关系结构。
模块四:评估体系¶
- 做什么:建立覆盖幻觉率和回答质量的多维评估体系。
- 核心思路:幻觉评估使用 FActScore(将回答分解为原子事实并对照 Wikipedia 验证)和 SAFE(用 LLM 代理迭代搜索验证);质量评估使用 G-Eval 框架的四个维度——上下文相关性、全面性、正确性、信息赋能。
- 设计动机:单一指标无法全面刻画 KG 增强效果,需同时考量"说得对不对"(幻觉)和"说得好不好"(质量)。
损失函数/训练策略¶
本文为实证性基准研究,不涉及模型训练。所有实验使用预训练 LLM 的推理能力,设置 \(\text{temperature} = 0.7\),\(\text{top\_p} = 1.0\)。评估骨干为 gpt-4o-mini,经人工评估验证与人类判断高度一致。
实验关键数据¶
主实验:不同 KG 检索策略对幻觉的影响(GPT-4o 为例)¶
| 方法 | Context Rel. | Comprehensive. | Correctness | Empowerment | SAFE | FActScore |
|---|---|---|---|---|---|---|
| Zero-shot(无 KG) | 68.12% | 65.41% | 60.41% | 62.41% | 82.47% | 55.34% |
| 4-shot(无 KG) | 70.61% | 67.43% | 62.33% | 64.51% | 83.39% | 57.45% |
| IRCoT(Wikipedia) | 73.12% | 69.23% | 66.33% | 65.51% | 87.39% | 69.45% |
| CoT+SC(无 KG) | 75.81% | 71.62% | 66.55% | 68.74% | 79.03% ↓ | 53.23% ↓ |
| KG-三元组 | 74.62% | 70.44% | 65.37% | 67.12% | 89.20% | 72.53% |
| KG-路径 | 78.71% | 74.53% | 69.42% | 71.63% | 90.20% | 75.61% |
| KG-子图 | 80.81% | 76.63% | 71.57% | 73.70% | 90.83% | 75.33% |
| KG-子图+CoT+SC | 82.90% | 78.72% | 73.64% | 75.80% | 89.12% | 75.42% |
消融实验:扰动级别对 FActScore 的影响(GPT-4o,子图检索 vs. 基线)¶
| 扰动方法 | 0% | 10% | 30% | 50% | 70% | 100% |
|---|---|---|---|---|---|---|
| 边删除-子图 | 75.33% | ~73% | ~68% | ~60% | ~53% | ~40% |
| 关系替换-子图 | 75.33% | ~71% | ~65% | ~56% | ~48% | ~38% |
| 边删除-三元组 | 72.53% | ~69% | ~62% | ~52% | <CoT | <CoT |
| CoT+SC 基线 | 53.23% | — | — | — | — | — |
注:扰动实验数据从 Figure 6 读取近似值。关键阈值:50% 扰动时三元组/路径退化至基线水平,子图仍优于基线。
关键发现¶
- KG 信息显著降低幻觉:KG-三元组将 GPT-4o 的 FActScore 从 55.34% 提升至 72.53%(+17.19pp),子图进一步提升至 75.33%(+19.99pp)。
- 内部推理反而可能加剧幻觉:CoT+SC 使 GPT-4o 的 SAFE 从 82.47% 下降至 79.03%,FActScore 从 55.34% 降至 53.23%,说明仅依赖内部推理不仅无法缓解幻觉,反而可能引入偏差。
- 子图检索全面最优:在所有 5 类查询上,子图检索的 G-Eval 和 FActScore 均优于三元组/路径,尤其在简单查询(描述性、事件描述)上优势明显。
- KG 增强优于传统 RAG:KG-三元组的 FActScore(72.53%)已超过 IRCoT(69.45%),子图检索 SAFE(90.83%)也优于 IRCoT(87.39%)。
- 子图检索对噪声最鲁棒:在 50% 扰动下子图检索仍优于 CoT 基线,而三元组/路径检索在 50% 扰动时已退化至基线水平。
- 开源模型同样受益:Llama-3.1-8B 和 Mistral-7B 使用 KG-子图后 FActScore 分别提升约 20pp 和 19pp。
亮点与洞察¶
- 开放域视角的独特价值:通过将 KGQA 从闭合式转向开放域,使得幻觉检测成为可能——这是一个简单但非常有影响力的实验设计转变。
- "CoT 加剧幻觉"的反直觉发现:CoT+SC 提升了回答质量(G-Eval↑)但同时增加了幻觉率(FActScore↓),揭示了推理过程中 LLM 可能"自圆其说"地编造事实。
- Prize-Cost 权衡的检索设计:将图检索形式化为 prize-cost 优化问题,提供了一个优雅且可扩展的统一框架来比较不同粒度的检索策略。
- OKGQA-P 的实用价值:系统性地量化 KG 噪声对下游性能的影响,给出了 50% 扰动阈值这一实用参考——现实中 Wikidata 等平台的错误率远低于此阈值。
- 子图的结构优势:子图通过 PCST 算法保留了实体间的连通结构,为 LLM 提供了更完整的推理上下文,这解释了其在复杂查询上的优势。
局限性/可改进方向¶
- 知识源单一:仅使用 DBpedia 作为知识源,缺乏对领域专用 KG(如生物医学 KG)的验证,泛化性存疑。
- 静态 KG 假设:未考虑动态更新的知识图谱场景,在需要实时知识的应用中适用性受限。
- 缺乏训练级集成:所有方法均为推理时增强(prompt 注入 KG 信息),未探索将 KG 知识融入模型训练/微调的方案。
- 检索开销未分析:三元组、路径、子图三种检索的计算成本和延迟对比缺失,实际部署时的效率-效果权衡不明确。
- 评估依赖 LLM:G-Eval 和 SAFE 均依赖 LLM 作为评判器,虽经人工验证但仍存在循环依赖风险。
- 可扩展至多模态 KG:未来可将框架扩展至包含图像、表格等多模态信息的知识图谱。
相关工作与启发¶
- G-Retriever(He et al., 2024):本文子图检索方法的基础,使用 PCST 算法实现图-文本问答,但原始工作未聚焦幻觉评估。
- FActScore(Min et al., 2023)与 SAFE(Wei et al., 2024):两种互补的幻觉量化指标,前者基于知识库验证,后者基于搜索引擎验证。
- IRCoT(Trivedi et al., 2022):基于 Wikipedia 段落的交错检索-推理方法,本文证明 KG 结构化检索优于此类非结构化 RAG。
- GraphRAG(Edge et al., 2024):从局部到全局的图 RAG 方法,与本文框架思路相近但侧重文本图而非 KG。
- 启发:KG 增强与传统 RAG 的本质差异在于结构化关系的利用,未来可探索将 KG 结构编码为 LLM 可理解的推理链,而非仅作为文本 prompt 注入。
评分¶
- 新颖性: ⭐⭐⭐ — 方法层面创新有限(主要是基准构建+已有方法的系统比较),但开放域视角和扰动评估是有价值的贡献。
- 技术深度: ⭐⭐⭐ — 框架形式化清晰,检索方法涵盖全面,但缺乏理论分析和新算法设计。
- 实验充分度: ⭐⭐⭐⭐⭐ — 5 个 LLM × 多种检索策略 × 多类查询 × 4 种扰动方法 × 多粒度扰动级别,实验极为详尽。
- 实用价值: ⭐⭐⭐⭐ — OKGQA 基准和 50% 扰动阈值等发现对 KG+LLM 系统的实际设计有直接指导意义。