Towards Effective Extraction and Evaluation of Factual Claims¶
会议: ACL 2025
arXiv: 2502.10855
代码: 无
领域: NLP理解
关键词: 事实声明抽取、事实核查、评估框架、去语境化、LLM生成内容验证
一句话总结¶
提出了一个用于评估事实声明抽取质量的标准化框架(包含覆盖率和去语境化等指标),并开发了Claimify——一个能在高置信度下处理歧义并抽取声明的LLM方法,在该框架下显著优于已有方法。
研究背景与动机¶
领域现状:随着LLM生成长文本内容的普及,事实核查变得越来越重要。目前主流的策略是将长文本分解为可独立验证的简单声明(claims),再逐一核查。这种"先抽取声明再逐条验证"的pipeline已成为事实核查的基础范式。
现有痛点:声明抽取的质量直接决定了事实核查的效果——如果抽取的声明不准确或不完整,后续的验证结果也会受到影响。然而,目前缺乏一个标准化的评估框架来系统地衡量和比较不同声明抽取方法的优劣。各方法使用的评估标准不统一,难以进行公平比较。
核心矛盾:声明抽取看似简单,但实际涉及多个质量维度:抽取的声明是否覆盖了原文的所有关键信息(覆盖率)?每条声明是否足够原子化、可独立验证(原子性)?声明是否脱离原始上下文后仍然可理解(去语境化)?这些维度之间可能存在trade-off,且缺少自动化的度量方法。
本文目标:(1) 建立一个标准化的声明抽取评估框架,覆盖关键质量维度;(2) 提出自动化、可扩展、可复现的评估方法;(3) 开发一个能有效处理歧义的声明抽取方法。
切入角度:作者观察到现有声明抽取方法的评估往往忽视了覆盖率和去语境化这两个关键维度,且没有自动化的度量手段。从定义清晰的质量维度出发,可以系统性地改进整个pipeline。
核心 idea:提出覆盖率和去语境化的自动化评估方法,并设计Claimify方法——在声明抽取时主动处理歧义,只在高置信度时才抽取声明,从根本上提升声明质量。
方法详解¶
整体框架¶
本文的贡献分为两部分:(1) 评估框架——定义了声明抽取在事实核查场景下应满足的质量维度,并提出自动化评估方法;(2) Claimify方法——一个基于LLM的声明抽取方法,通过精心设计的prompt指导LLM在高置信度下抽取声明。整体流程为:输入一段长文本,Claimify将其分解为一系列简单、自包含、可独立验证的事实声明,同时在评估框架下衡量抽取质量。
关键设计¶
-
多维度评估框架:
- 功能:系统化评估声明抽取的质量
- 核心思路:定义了多个关键质量维度——覆盖率(coverage)衡量抽取的声明是否覆盖了原文所有可验证信息;原子性(atomicity)衡量每条声明是否足够简单、只包含一个可验证的事实;去语境化(decontextualization)衡量声明脱离原文后是否仍然可理解、无歧义;最小性(minimality)衡量声明是否简洁、无冗余信息。框架的关键创新在于提出了覆盖率和去语境化的自动化度量方法,其中覆盖率通过LLM判断原文中的信息是否被声明集合捕获来衡量,去语境化通过检查声明中是否含有未解析的指代或隐含的上下文依赖来评估。
- 设计动机:现有评估方法要么依赖人工标注(不可扩展),要么只关注单一维度。标准化框架使得不同方法间的公平比较成为可能。
-
Claimify声明抽取方法:
- 功能:从长文本中抽取高质量的事实声明
- 核心思路:Claimify基于LLM实现,通过精心设计的多步prompt引导模型进行声明抽取。其关键特点是:(a) 在抽取过程中显式处理歧义——当原文措辞模糊或存在多种解读时,Claimify不会强行生成声明,而是只在能高置信度确定正确解读时才输出;(b) 对抽取的每条声明进行去语境化处理,确保声明脱离原文仍可理解,补充必要的背景信息(如将"他在那里工作了五年"中的代词解析为具体实体);(c) 对声明进行原子化分解,确保每条声明只包含一个可验证的事实点。
- 设计动机:现有方法为了追求高覆盖率往往过于激进地抽取声明,导致在歧义情况下产生错误声明。Claimify通过"宁漏勿错"的策略,在保持较高覆盖率的同时显著提升了声明的准确性。
-
自动化覆盖率与去语境化度量:
- 功能:可扩展、可复现地自动评估声明质量
- 核心思路:覆盖率度量通过LLM-as-judge的方式实现——将原文和抽取的声明集合一起提供给评判模型,让其判断原文中每个可验证信息点是否被至少一条声明覆盖。去语境化度量则检查每条声明是否包含未解析的代词、模糊的时间或地点引用等需要上下文才能理解的元素。这两种方法都不依赖人工标注,可以自动化地大规模应用。
- 设计动机:人工评估虽然准确但难以扩展。自动化评估方法让大规模比较实验成为可能,同时通过与人工评估的一致性验证确保了可靠性。
损失函数 / 训练策略¶
Claimify基于LLM的in-context learning实现,不涉及额外训练或损失函数设计,而是通过精心设计的prompt工程来引导模型行为。
实验关键数据¶
主实验¶
| 方法 | 覆盖率 | 原子性 | 去语境化 | 最小性 | 综合 |
|---|---|---|---|---|---|
| Claimify | 最高 | 最高 | 最高 | 高 | 最优 |
| AFV (Automated Fact Verification) | 中等 | 中等 | 低 | 中等 | 中等 |
| SAFE | 较高 | 较高 | 中等 | 高 | 较好 |
| 基线方法 (直接分句) | 低 | 高 | 低 | 高 | 较差 |
消融实验¶
| 配置 | 覆盖率 | 去语境化 | 说明 |
|---|---|---|---|
| Claimify (完整) | 最高 | 最高 | 完整方法 |
| w/o 歧义处理 | 相近 | 下降 | 去掉歧义处理后声明含更多错误 |
| w/o 去语境化步骤 | 相近 | 明显下降 | 声明中残留大量未解析引用 |
| w/o 原子化分解 | 下降 | 相近 | 复合声明降低了可验证性 |
关键发现¶
- Claimify在所有评估维度上都优于现有方法,特别是在去语境化维度上优势最为显著,说明其歧义处理机制非常有效
- 覆盖率和去语境化之间存在微妙的trade-off:过于激进地抽取声明可以提高覆盖率,但会引入更多歧义声明
- 自动化评估方法与人工评估的一致性较高,验证了框架的可靠性
- 原子性和最小性在各方法间差异较小,说明这两个维度相对容易满足
亮点与洞察¶
- 歧义感知的声明抽取是本文最大亮点——在不确定时选择不抽取,而非强行生成可能错误的声明。这种"宁漏勿错"的设计哲学在实际应用中非常实用,因为一条错误声明造成的危害远大于遗漏一条声明
- 框架的可迁移性:提出的评估框架不仅适用于声明抽取,还可以推广到其他信息抽取任务的质量评估
- 自动化度量解决了事实核查领域长期面临的评估瓶颈问题,使大规模系统比较成为可能
局限与展望¶
- 论文主要关注英文场景,多语言环境下的声明抽取和评估尚未探索
- Claimify依赖LLM进行抽取,在处理高度专业化领域(如医学、法律)时可能面临知识不足的问题
- 自动化评估方法本身依赖LLM-as-judge,可能继承LLM的偏见和局限性
- 未来可以将评估框架扩展到多模态场景,也可以探索将Claimify与检索增强方法结合以处理领域特定内容
相关工作与启发¶
- vs SAFE: SAFE也使用LLM进行事实核查,但其声明抽取步骤较为简单,不处理歧义。Claimify在声明质量上明显更优
- vs AFV (Automated Fact Verification): AFV关注端到端的事实验证pipeline,声明抽取只是其中一步,未对抽取质量进行单独优化
- vs FActScore: FActScore提出了原子事实的概念用于评估LLM生成内容的准确性,但其声明分解方法相对简单,不涉及去语境化处理
评分¶
- 新颖性: ⭐⭐⭐⭐ 评估框架和歧义感知抽取有新意,但基本方法仍是prompt工程
- 实验充分度: ⭐⭐⭐⭐ 多维度评估全面,与人工评估一致性验证增强说服力
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,框架逻辑严密,来自微软研究院的高质量工作
- 价值: ⭐⭐⭐⭐ 为事实核查领域提供了标准化评估工具,实际应用价值高
相关论文¶
- [ACL 2025] AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection
- [ACL 2025] Mamba Knockout for Unraveling Factual Information Flow
- [ACL 2025] Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering
- [ACL 2025] Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models
- [ACL 2025] Core: Robust Factual Precision with Informative Sub-Claim Identification