Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs¶
会议: ACL 2025
arXiv: 2401.14640
领域: NLP / 归因评估 / 问答系统
关键词: 归因评估, 知识图谱, 问答系统, 大语言模型, 基准构建
一句话总结¶
提出 CAQA 基准,利用知识图谱自动生成包含四类归因类别(支持、部分支持、矛盾、无关)和四种推理复杂度的大规模问答归因评估数据集(161K 样本),系统性地评测了 25 种自动归因评估器的能力。
研究背景与动机¶
归因问答(Attributed Question Answering, AQA)旨在让模型在生成答案的同时提供支持证据(引用),以缓解大语言模型的幻觉问题。然而,即使是最先进的 AQA 系统(如 Bing Chat、Perplexity),仍然频繁产生错误的归因。
现有归因评估基准存在三大核心缺陷:
- 归因类别不完整:大多数基准仅区分"支持/不支持"二分类,少数增加了"部分支持"但规模小且依赖人工标注
- 忽视归因复杂度:未考虑需要多条证据、多步推理才能验证答案的复杂场景
- 依赖人工标注:人工标注成本高、效率低,难以扩展
作者观察到实际 AQA 系统的错误归因可细分为部分支持(缺少部分事实)、矛盾(证据与答案冲突)和无关(证据与答案无关)三类,且现实场景中常需跨多条证据进行 union、intersection、concatenation 等逻辑推理。这些发现驱动了 CAQA 的设计。
方法详解¶
整体框架¶
CAQA 构建流程分为四个步骤:
- 查询收集(Query Collection):从 KGQA 数据集(GrailQA、WebQuestionsSP)中收集三类基本逻辑查询——单三元组查询、路径查询、树形查询
- 查询扩展(Query Extension):使用交集(∧)和并集(∨)两种逻辑运算扩展查询复杂度
- 结构化归因生成(Structured Attribution Generation):将扩展查询在 Freebase KG 中接地,获取子图并通过编辑策略生成四类归因
- 数据生成(Data Generation):使用 ChatGPT 将结构化子图转换为自然语言引用文本
关键设计¶
四类归因类别的生成策略:
- 支持(Supportive):直接使用查询接地后的完整子图,包含推导答案所需的全部事实
- 部分支持(Partially Supportive):对子图进行部分删除——路径查询随机删除一个三元组,树形查询删除一条路径,使证据不完整
- 矛盾(Contradictory):将子图中的答案实体替换为同类型的非答案实体,使推理结果与答案冲突
- 无关(Irrelevant):从 KG 中选取结构相似但实体无关的子图,仅保留主语实体
四级推理复杂度:
- Single:单条引用即可验证答案
- Union:答案由多条独立引用的并集推出
- Intersection:答案由多条共享实体的引用的交集推出
- Concatenation:答案由多条链式引用推出
查询扩展规则:对单三元组查询使用 union 扩展(检索同名实体生成并集查询);对路径查询和树形查询使用 intersection 扩展(附加新的约束三元组或新的目标约束)。
实验关键数据¶
主实验¶
数据集规模:161,174 样本(训练集 137,211 / 测试集 23,963),涵盖四类归因和四级复杂度。
Zero-shot 设置核心结果(F1 分数):
| 评估器 | 支持 | 部分支持 | 矛盾 | 无关 | 总体 |
|---|---|---|---|---|---|
| GPT-4 | 0.771 | 0.456 | 0.745 | 0.473 | 0.630 |
| GPT-4o | 0.769 | 0.445 | 0.598 | 0.626 | 0.630 |
| Qwen-2.5 (72B) | 0.629 | 0.266 | 0.701 | 0.471 | 0.571 |
| LLaMA-3.1 (8B) | 0.544 | 0.049 | 0.130 | 0.017 | 0.318 |
Fine-tuning 设置:所有微调评估器在各类别上 F1 均超过 90%(如 LLaMA-3 8B: 92.6%, Mistral 7B: 94.2%),证明 CAQA 数据的训练价值。
现有专用评估器:AutoIS 仅支持二分类(支持 F1=0.609),AttrScore 总体仅 0.521,远不及通用 LLM 微调方案。
关键发现¶
- 部分支持是最难识别的类别:即使最强的 GPT-4 在 zero-shot 下仅 0.456 F1,评估器倾向于将"部分支持"误判为"支持"
- 关键词共现导致误判:评估器常因关键词重叠而忽略语义关系差异,将无关或部分支持误判为支持
- 复杂推理场景挑战更大:除 GPT 系列外,大多数评估器在需要 concatenation 和 intersection 推理的场景下表现显著下降
- 少样本对大模型有益但对小模型有限:≥70B 的模型和 GPT 系列在 few-shot 设置下平均提升 4.84%,而小模型几乎无提升甚至下降
- 与人工标注高度一致:自动生成类别与人工标注的 Pearson 相关系数达 0.97
- 跨分布泛化能力:在 ALCE-FineGrained(OOD 测试集)上,CAQA 微调模型优于专用评估器
亮点与洞察¶
- 基于 KG 的自动化构建方法极具创新性,将 KGQA 数据集中的结构化查询作为生成归因的"骨架",通过子图编辑策略系统地创建不同归因类别,避免了人工标注的高成本
- 部分支持类别的引入填补了现有基准的重要空白——实际系统中大量错误属于"证据不完整但不矛盾"的情况
- 复杂度维度的设计首次将归因评估与推理复杂度解耦,揭示了评估器在多步推理场景下的根本弱点
- 微调后小模型即可达到 90%+ 的性能,说明归因评估能力可以被有效学习,而非仅依赖模型规模
- 161K 规模的数据集为归因评估研究提供了充足的训练和测试资源
局限性¶
- 基于 Freebase KG 构建,主要涵盖事实性知识问答,对观点性、推理性问题的覆盖有限
- 自然语言转换依赖 ChatGPT,生成的引用文本可能存在模式化倾向,与真实网页引用的多样性有差距
- 部分支持类别在单三元组查询下无法生成(因删除唯一三元组后变为无关),导致该类别在 single 复杂度下的覆盖不足
- 仅使用交集和并集两种逻辑运算扩展查询,未考虑否定(Negation)等更复杂的逻辑操作
- FactScore 评估仅在 200 个样本上进行,规模偏小
相关工作¶
- 归因问答:Menick et al. (2022) 训练归因模型生成答案和引用;Gao et al. (2023b) 提出 ALCE 基准;各类 RAG 系统通过检索增强归因
- 归因评估:AutoIS (Honovich et al., 2022) 和 AttrScore (Yue et al., 2023) 为代表的自动评估器;HAGRID、ExpertQA、AttributionBench 等基准
- 知识图谱问答:GrailQA (Gu et al., 2021)、WebQuestionsSP (Yih et al., 2016) 提供结构化查询资源
- 幻觉检测:FActScore (Min et al., 2023) 提出子事实级别的评估框架
评分¶
- 新颖性: ★★★★☆ — 首个结合 KG 自动生成四类归因 + 四级复杂度的基准,方法论创新
- 技术深度: ★★★★☆ — 查询扩展和子图编辑策略设计精巧,逻辑严密
- 实验充分性: ★★★★★ — 25 种评估器、三种设置、OOD 测试、人工一致性验证,极其全面
- 实用价值: ★★★★☆ — 为归因评估研究提供重要资源,微调方案可直接落地
- 写作质量: ★★★★☆ — 结构清晰,定义严谨,表格丰富