Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs¶

会议: ACL 2025
arXiv: 2401.14640
领域: NLP / 归因评估 / 问答系统
关键词: 归因评估, 知识图谱, 问答系统, 大语言模型, 基准构建

一句话总结¶

提出 CAQA 基准，利用知识图谱自动生成包含四类归因类别（支持、部分支持、矛盾、无关）和四种推理复杂度的大规模问答归因评估数据集（161K 样本），系统性地评测了 25 种自动归因评估器的能力。

归因问答（Attributed Question Answering, AQA）旨在让模型在生成答案的同时提供支持证据（引用），以缓解大语言模型的幻觉问题。然而，即使是最先进的 AQA 系统（如 Bing Chat、Perplexity），仍然频繁产生错误的归因。

现有归因评估基准存在三大核心缺陷：

作者观察到实际 AQA 系统的错误归因可细分为部分支持（缺少部分事实）、矛盾（证据与答案冲突）和无关（证据与答案无关）三类，且现实场景中常需跨多条证据进行 union、intersection、concatenation 等逻辑推理。这些发现驱动了 CAQA 的设计。

CAQA 构建流程分为四个步骤：

查询收集（Query Collection）：从 KGQA 数据集（GrailQA、WebQuestionsSP）中收集三类基本逻辑查询——单三元组查询、路径查询、树形查询
查询扩展（Query Extension）：使用交集（∧）和并集（∨）两种逻辑运算扩展查询复杂度
结构化归因生成（Structured Attribution Generation）：将扩展查询在 Freebase KG 中接地，获取子图并通过编辑策略生成四类归因
数据生成（Data Generation）：使用 ChatGPT 将结构化子图转换为自然语言引用文本

四类归因类别的生成策略：

四级推理复杂度：

查询扩展规则：对单三元组查询使用 union 扩展（检索同名实体生成并集查询）；对路径查询和树形查询使用 intersection 扩展（附加新的约束三元组或新的目标约束）。

数据集规模：161,174 样本（训练集 137,211 / 测试集 23,963），涵盖四类归因和四级复杂度。

Zero-shot 设置核心结果（F1 分数）：

Fine-tuning 设置：所有微调评估器在各类别上 F1 均超过 90%（如 LLaMA-3 8B: 92.6%, Mistral 7B: 94.2%），证明 CAQA 数据的训练价值。

现有专用评估器：AutoIS 仅支持二分类（支持 F1=0.609），AttrScore 总体仅 0.521，远不及通用 LLM 微调方案。

基于 KG 的自动化构建方法极具创新性，将 KGQA 数据集中的结构化查询作为生成归因的"骨架"，通过子图编辑策略系统地创建不同归因类别，避免了人工标注的高成本
部分支持类别的引入填补了现有基准的重要空白——实际系统中大量错误属于"证据不完整但不矛盾"的情况
复杂度维度的设计首次将归因评估与推理复杂度解耦，揭示了评估器在多步推理场景下的根本弱点
微调后小模型即可达到 90%+ 的性能，说明归因评估能力可以被有效学习，而非仅依赖模型规模
161K 规模的数据集为归因评估研究提供了充足的训练和测试资源