Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study Over Open-ended Question Answering¶

会议: ACL 2025
arXiv: 2410.08085
代码: https://github.com/Y-Sui/OKGQA
领域: LLM/NLP
关键词: 知识图谱, 大语言模型幻觉, 开放域问答, 检索增强生成, 子图检索, 基准测试

一句话总结¶

提出开放域知识图谱问答基准 OKGQA 及其扰动变体 OKGQA-P，通过统一的图引导检索-生成框架系统性地验证了 KG 增强可以有效降低 LLM 幻觉率（FActScore 提升约 20 个百分点），子图检索在各类查询上表现最优且对 KG 噪声具有鲁棒性。

研究背景与动机¶

LLM 幻觉问题严峻：当代大语言模型容易产生听起来合理但事实错误的输出（幻觉），在医疗、科研等高风险领域危害尤其突出。
KG 增强的潜力：知识图谱提供结构化、可溯源的事实信息，理论上可通过外部知识注入来提升 LLM 输出的可靠性与可信度。
现有基准的局限：已有 KGQA 基准（如 WebQSP、CWQ）主要关注闭合式任务，模型输出局限于固定实体/关系集合，无法有效检测幻觉——传统指标如 accuracy 无法区分检索错误与捏造回答。
开放域评测的必要性：在开放域设置中，LLM 需生成包含推理路径和支持事实的段落式回答，扩大的输出空间使得幻觉更容易暴露，也能利用 FActScore/SAFE 等指标直接量化幻觉率。
KG 质量的现实挑战：现实中 KG 常包含标注错误、缺失关系等噪声，需要评估模型在 KG 被污染时的鲁棒性。
方法设计缺乏系统比较：不同 KG 检索粒度（三元组 vs. 路径 vs. 子图）对幻觉缓解效果的差异缺乏系统性对比分析。

方法详解¶

整体框架¶

本文提出基于 RAG 范式的统一 KG 增强框架，由两个核心组件构成：图引导检索（G-Retrieval） 从 KG 中提取与查询相关的知识子集 \(\mathcal{Z}^*\)，以及图引导生成（G-Generator） 利用检索到的知识生成段落式回答。形式化为：

\[p(a|q) = \sum_{\mathcal{Z} \subseteq \mathcal{G}} p_\phi(a|q, \mathcal{Z}) \cdot p_\theta(\mathcal{Z}|q, \mathcal{G}) \approx p_\phi(a|q, \mathcal{Z}^*) \cdot p_\theta(\mathcal{Z}^*|q, \mathcal{G})\]

其中 \(\mathcal{Z}^* = \arg\max_{\mathcal{Z} \in \mathcal{G}} p_\theta(\mathcal{Z}|q, \mathcal{G})\)，通过选择最优知识子集来近似求和。

关键设计¶

模块一：OKGQA 基准构建¶

做什么：构建面向开放域 KGQA 的基准数据集，包含 850→2050 条多类型查询。
核心思路：采用模板驱动的 LLM 生成方法产生五类查询（描述性、解释性、预测性、比较性、批判性），通过自动评分 \(s_{\text{auto}}\) 与人工评分 \(s_{\text{human}}\) 的迭代对齐优化查询质量。KG 子图从 DBpedia 的 2-hop 邻域中提取，使用 Personalized PageRank (PPR) 剪枝将平均 token 数从 348,715 压缩到 2,452。
设计动机：闭合式基准无法检测幻觉，需要开放域设置让模型生成长文本以暴露事实错误；PPR 剪枝在保留相关信息的同时控制子图规模。

模块二：OKGQA-P 扰动基准¶

做什么：通过四种边扰动方法模拟现实中 KG 质量不可靠的场景。
核心思路：设计四种扰动策略——关系交换（RS）随机交换两条边的关系；关系替换（RR）将关系替换为语义最不相似的关系（"harder negatives"）；边重连（ER）将目标实体替换为 1-hop 邻域外的实体；边删除（ED）直接删除边。通过控制扰动比例（0%–100%）调节噪声程度，并使用 ATS（语义相似度）、SC2D 和 SD2（结构相似度）量化偏离程度。
设计动机：Wikidata 等平台虽有社区质控，但仍存在标注错误。OKGQA-P 通过系统性扰动评估方法鲁棒性，指导实际部署。

模块三：图引导检索（G-Retrieval）¶

做什么：从 KG 中提取与查询最相关的知识子集，提供三种检索粒度。
核心思路：将查询和 KG 元素编码到统一嵌入空间（使用 text-embedding-3-small），通过余弦相似度排名，采用 prize-cost 权衡策略——对 top-\(k\) 节点/边赋予递减奖励 \(p_v = \max(0, k - \text{rank}(v) + 1)\)，扩展时施加代价 \(C_e\)：
三元组检索：选取总奖励最高的固定数量三元组；
路径检索：从高奖励节点出发贪心扩展路径，最大化 \(S(\mathcal{P}) = \sum p_{v_i} + \sum p_{e_i} - \sum c_e\)；
子图检索：基于 Prize-Collecting Steiner Tree (PCST) 算法找到最大化总分的连通子图。
设计动机：不同检索粒度提供不同程度的结构信息。三元组最简但缺乏上下文，路径保留推理链，子图提供最完整的关系结构。

模块四：评估体系¶

做什么：建立覆盖幻觉率和回答质量的多维评估体系。
核心思路：幻觉评估使用 FActScore（将回答分解为原子事实并对照 Wikipedia 验证）和 SAFE（用 LLM 代理迭代搜索验证）；质量评估使用 G-Eval 框架的四个维度——上下文相关性、全面性、正确性、信息赋能。
设计动机：单一指标无法全面刻画 KG 增强效果，需同时考量"说得对不对"（幻觉）和"说得好不好"（质量）。

损失函数/训练策略¶

本文为实证性基准研究，不涉及模型训练。所有实验使用预训练 LLM 的推理能力，设置 \(\text{temperature} = 0.7\)，\(\text{top\_p} = 1.0\)。评估骨干为 gpt-4o-mini，经人工评估验证与人类判断高度一致。

实验关键数据¶

主实验：不同 KG 检索策略对幻觉的影响（GPT-4o 为例）¶

方法	Context Rel.	Comprehensive.	Correctness	Empowerment	SAFE	FActScore
Zero-shot（无 KG）	68.12%	65.41%	60.41%	62.41%	82.47%	55.34%
4-shot（无 KG）	70.61%	67.43%	62.33%	64.51%	83.39%	57.45%
IRCoT（Wikipedia）	73.12%	69.23%	66.33%	65.51%	87.39%	69.45%
CoT+SC（无 KG）	75.81%	71.62%	66.55%	68.74%	79.03% ↓	53.23% ↓
KG-三元组	74.62%	70.44%	65.37%	67.12%	89.20%	72.53%
KG-路径	78.71%	74.53%	69.42%	71.63%	90.20%	75.61%
KG-子图	80.81%	76.63%	71.57%	73.70%	90.83%	75.33%
KG-子图+CoT+SC	82.90%	78.72%	73.64%	75.80%	89.12%	75.42%

消融实验：扰动级别对 FActScore 的影响（GPT-4o，子图检索 vs. 基线）¶

扰动方法	0%	10%	30%	50%	70%	100%
边删除-子图	75.33%	~73%	~68%	~60%	~53%	~40%
关系替换-子图	75.33%	~71%	~65%	~56%	~48%	~38%
边删除-三元组	72.53%	~69%	~62%	~52%	<CoT	<CoT
CoT+SC 基线	53.23%	—	—	—	—	—

注：扰动实验数据从 Figure 6 读取近似值。关键阈值：50% 扰动时三元组/路径退化至基线水平，子图仍优于基线。

关键发现¶

KG 信息显著降低幻觉：KG-三元组将 GPT-4o 的 FActScore 从 55.34% 提升至 72.53%（+17.19pp），子图进一步提升至 75.33%（+19.99pp）。
内部推理反而可能加剧幻觉：CoT+SC 使 GPT-4o 的 SAFE 从 82.47% 下降至 79.03%，FActScore 从 55.34% 降至 53.23%，说明仅依赖内部推理不仅无法缓解幻觉，反而可能引入偏差。
子图检索全面最优：在所有 5 类查询上，子图检索的 G-Eval 和 FActScore 均优于三元组/路径，尤其在简单查询（描述性、事件描述）上优势明显。
KG 增强优于传统 RAG：KG-三元组的 FActScore（72.53%）已超过 IRCoT（69.45%），子图检索 SAFE（90.83%）也优于 IRCoT（87.39%）。
子图检索对噪声最鲁棒：在 50% 扰动下子图检索仍优于 CoT 基线，而三元组/路径检索在 50% 扰动时已退化至基线水平。
开源模型同样受益：Llama-3.1-8B 和 Mistral-7B 使用 KG-子图后 FActScore 分别提升约 20pp 和 19pp。

亮点与洞察¶

开放域视角的独特价值：通过将 KGQA 从闭合式转向开放域，使得幻觉检测成为可能——这是一个简单但非常有影响力的实验设计转变。
"CoT 加剧幻觉"的反直觉发现：CoT+SC 提升了回答质量（G-Eval↑）但同时增加了幻觉率（FActScore↓），揭示了推理过程中 LLM 可能"自圆其说"地编造事实。
Prize-Cost 权衡的检索设计：将图检索形式化为 prize-cost 优化问题，提供了一个优雅且可扩展的统一框架来比较不同粒度的检索策略。
OKGQA-P 的实用价值：系统性地量化 KG 噪声对下游性能的影响，给出了 50% 扰动阈值这一实用参考——现实中 Wikidata 等平台的错误率远低于此阈值。
子图的结构优势：子图通过 PCST 算法保留了实体间的连通结构，为 LLM 提供了更完整的推理上下文，这解释了其在复杂查询上的优势。

局限性/可改进方向¶

知识源单一：仅使用 DBpedia 作为知识源，缺乏对领域专用 KG（如生物医学 KG）的验证，泛化性存疑。
静态 KG 假设：未考虑动态更新的知识图谱场景，在需要实时知识的应用中适用性受限。
缺乏训练级集成：所有方法均为推理时增强（prompt 注入 KG 信息），未探索将 KG 知识融入模型训练/微调的方案。
检索开销未分析：三元组、路径、子图三种检索的计算成本和延迟对比缺失，实际部署时的效率-效果权衡不明确。
评估依赖 LLM：G-Eval 和 SAFE 均依赖 LLM 作为评判器，虽经人工验证但仍存在循环依赖风险。
可扩展至多模态 KG：未来可将框架扩展至包含图像、表格等多模态信息的知识图谱。

评分¶

新颖性: ⭐⭐⭐ — 方法层面创新有限（主要是基准构建+已有方法的系统比较），但开放域视角和扰动评估是有价值的贡献。
技术深度: ⭐⭐⭐ — 框架形式化清晰，检索方法涵盖全面，但缺乏理论分析和新算法设计。
实验充分度: ⭐⭐⭐⭐⭐ — 5 个 LLM × 多种检索策略 × 多类查询 × 4 种扰动方法 × 多粒度扰动级别，实验极为详尽。
实用价值: ⭐⭐⭐⭐ — OKGQA 基准和 50% 扰动阈值等发现对 KG+LLM 系统的实际设计有直接指导意义。