跳转至

Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs

会议: ACL 2025
arXiv: 2401.14640
领域: NLP / 归因评估 / 问答系统
关键词: 归因评估, 知识图谱, 问答系统, 大语言模型, 基准构建

一句话总结

提出 CAQA 基准,利用知识图谱自动生成包含四类归因类别(支持、部分支持、矛盾、无关)和四种推理复杂度的大规模问答归因评估数据集(161K 样本),系统性地评测了 25 种自动归因评估器的能力。

研究背景与动机

归因问答(Attributed Question Answering, AQA)旨在让模型在生成答案的同时提供支持证据(引用),以缓解大语言模型的幻觉问题。然而,即使是最先进的 AQA 系统(如 Bing Chat、Perplexity),仍然频繁产生错误的归因。

现有归因评估基准存在三大核心缺陷:

  1. 归因类别不完整:大多数基准仅区分"支持/不支持"二分类,少数增加了"部分支持"但规模小且依赖人工标注
  2. 忽视归因复杂度:未考虑需要多条证据、多步推理才能验证答案的复杂场景
  3. 依赖人工标注:人工标注成本高、效率低,难以扩展

作者观察到实际 AQA 系统的错误归因可细分为部分支持(缺少部分事实)、矛盾(证据与答案冲突)和无关(证据与答案无关)三类,且现实场景中常需跨多条证据进行 union、intersection、concatenation 等逻辑推理。这些发现驱动了 CAQA 的设计。

方法详解

整体框架

CAQA 构建流程分为四个步骤:

  1. 查询收集(Query Collection):从 KGQA 数据集(GrailQA、WebQuestionsSP)中收集三类基本逻辑查询——单三元组查询、路径查询、树形查询
  2. 查询扩展(Query Extension):使用交集(∧)和并集(∨)两种逻辑运算扩展查询复杂度
  3. 结构化归因生成(Structured Attribution Generation):将扩展查询在 Freebase KG 中接地,获取子图并通过编辑策略生成四类归因
  4. 数据生成(Data Generation):使用 ChatGPT 将结构化子图转换为自然语言引用文本

关键设计

四类归因类别的生成策略

  • 支持(Supportive):直接使用查询接地后的完整子图,包含推导答案所需的全部事实
  • 部分支持(Partially Supportive):对子图进行部分删除——路径查询随机删除一个三元组,树形查询删除一条路径,使证据不完整
  • 矛盾(Contradictory):将子图中的答案实体替换为同类型的非答案实体,使推理结果与答案冲突
  • 无关(Irrelevant):从 KG 中选取结构相似但实体无关的子图,仅保留主语实体

四级推理复杂度

  • Single:单条引用即可验证答案
  • Union:答案由多条独立引用的并集推出
  • Intersection:答案由多条共享实体的引用的交集推出
  • Concatenation:答案由多条链式引用推出

查询扩展规则:对单三元组查询使用 union 扩展(检索同名实体生成并集查询);对路径查询和树形查询使用 intersection 扩展(附加新的约束三元组或新的目标约束)。

实验关键数据

主实验

数据集规模:161,174 样本(训练集 137,211 / 测试集 23,963),涵盖四类归因和四级复杂度。

Zero-shot 设置核心结果(F1 分数):

评估器 支持 部分支持 矛盾 无关 总体
GPT-4 0.771 0.456 0.745 0.473 0.630
GPT-4o 0.769 0.445 0.598 0.626 0.630
Qwen-2.5 (72B) 0.629 0.266 0.701 0.471 0.571
LLaMA-3.1 (8B) 0.544 0.049 0.130 0.017 0.318

Fine-tuning 设置:所有微调评估器在各类别上 F1 均超过 90%(如 LLaMA-3 8B: 92.6%, Mistral 7B: 94.2%),证明 CAQA 数据的训练价值。

现有专用评估器:AutoIS 仅支持二分类(支持 F1=0.609),AttrScore 总体仅 0.521,远不及通用 LLM 微调方案。

关键发现

  1. 部分支持是最难识别的类别:即使最强的 GPT-4 在 zero-shot 下仅 0.456 F1,评估器倾向于将"部分支持"误判为"支持"
  2. 关键词共现导致误判:评估器常因关键词重叠而忽略语义关系差异,将无关或部分支持误判为支持
  3. 复杂推理场景挑战更大:除 GPT 系列外,大多数评估器在需要 concatenation 和 intersection 推理的场景下表现显著下降
  4. 少样本对大模型有益但对小模型有限:≥70B 的模型和 GPT 系列在 few-shot 设置下平均提升 4.84%,而小模型几乎无提升甚至下降
  5. 与人工标注高度一致:自动生成类别与人工标注的 Pearson 相关系数达 0.97
  6. 跨分布泛化能力:在 ALCE-FineGrained(OOD 测试集)上,CAQA 微调模型优于专用评估器

亮点与洞察

  • 基于 KG 的自动化构建方法极具创新性,将 KGQA 数据集中的结构化查询作为生成归因的"骨架",通过子图编辑策略系统地创建不同归因类别,避免了人工标注的高成本
  • 部分支持类别的引入填补了现有基准的重要空白——实际系统中大量错误属于"证据不完整但不矛盾"的情况
  • 复杂度维度的设计首次将归因评估与推理复杂度解耦,揭示了评估器在多步推理场景下的根本弱点
  • 微调后小模型即可达到 90%+ 的性能,说明归因评估能力可以被有效学习,而非仅依赖模型规模
  • 161K 规模的数据集为归因评估研究提供了充足的训练和测试资源

局限性

  • 基于 Freebase KG 构建,主要涵盖事实性知识问答,对观点性、推理性问题的覆盖有限
  • 自然语言转换依赖 ChatGPT,生成的引用文本可能存在模式化倾向,与真实网页引用的多样性有差距
  • 部分支持类别在单三元组查询下无法生成(因删除唯一三元组后变为无关),导致该类别在 single 复杂度下的覆盖不足
  • 仅使用交集和并集两种逻辑运算扩展查询,未考虑否定(Negation)等更复杂的逻辑操作
  • FactScore 评估仅在 200 个样本上进行,规模偏小

相关工作

  • 归因问答:Menick et al. (2022) 训练归因模型生成答案和引用;Gao et al. (2023b) 提出 ALCE 基准;各类 RAG 系统通过检索增强归因
  • 归因评估:AutoIS (Honovich et al., 2022) 和 AttrScore (Yue et al., 2023) 为代表的自动评估器;HAGRID、ExpertQA、AttributionBench 等基准
  • 知识图谱问答:GrailQA (Gu et al., 2021)、WebQuestionsSP (Yih et al., 2016) 提供结构化查询资源
  • 幻觉检测:FActScore (Min et al., 2023) 提出子事实级别的评估框架

评分

  • 新颖性: ★★★★☆ — 首个结合 KG 自动生成四类归因 + 四级复杂度的基准,方法论创新
  • 技术深度: ★★★★☆ — 查询扩展和子图编辑策略设计精巧,逻辑严密
  • 实验充分性: ★★★★★ — 25 种评估器、三种设置、OOD 测试、人工一致性验证,极其全面
  • 实用价值: ★★★★☆ — 为归因评估研究提供重要资源,微调方案可直接落地
  • 写作质量: ★★★★☆ — 结构清晰,定义严谨,表格丰富