跳转至

Zero-Shot Belief: A Hard Problem for LLMs

会议: ACL 2025
arXiv: 无
代码: 无
领域: LLM / NLP

一句话总结

本文提出了统一式和混合式两种零样本框架用于源-目标信念预测任务,使用 DeBERTa 事件标注器 + LLM 的混合方法在 FactBank 上达到新 SOTA(Full F1 72.0%),同时揭示了嵌套信念预测(Nested F1 仅 25.3%)对 LLM 而言仍是极大挑战。

背景与动机

  1. 信念/事件事实性检测是核心 NLP 任务:判断文本中作者或引用源对事件的事实性承诺程度,对信息抽取、假新闻检测等有重要意义。
  2. 此前无零样本实验:虽然该任务已研究多年,但此前所有方法均依赖微调,从未有零样本实验评估 LLM 在此任务上的表现。
  3. 嵌套信念更具挑战:除作者信念外,还需识别文本中提到的嵌套信源(如"公司称...")对事件的信念,这一子任务从未被专门评估。
  4. LLM 推理能力的新测试场景:信念检测需要语用理解和多层推理,是检验 LLM 深层语言理解能力的良好切入点。
  5. 事件识别本身就很困难:FactBank 中事件的定义复杂,即使微调专用模型也仅达 85.4% F1,LLM 在此子任务上表现更差。
  6. 跨语言验证需求:信念检测方法的多语言迁移能力(如意大利语 ModaFact 语料)尚未被系统检验。

方法详解

任务定义

给定文本,需识别:(1) 事件(event)、(2) 信源(source,包括作者和嵌套信源)、(3) 每个信源对每个事件的事实性标签(如 Factual、Probable、Unknown 等)。

统一式(Unified)方法

设计单一端到端零样本 prompt,包含: - 输入文本和任务高层描述 - 三步注释流程的详细说明:(1) 标注所有事件 (2) 识别嵌套信源 (3) 为每个信源分配事实性标签 - 特殊情况处理指南和输出格式 - Chain-of-Thought (CoT) 推理步骤总结

混合式(Hybrid)方法

分解流水线,解耦事件检测与信念标注: 1. 事件检测:使用微调的 DeBERTa 模型进行事件 token 检测(F1 89.0%),避免让 LLM 处理其不擅长的子任务。 2. LLM 信念标注:将检测到的事件列表和原文一起送入 LLM prompt,指示其识别嵌套信源并分配事实性标签,同样使用 CoT 格式。

信源归一化

FactBank 在 token 级别标注信源(如 "Trurit Inc." 标注为 "Inc."),使用 GPT-4o 进行少样本后处理将 LLM 预测的信源转换为 FactBank 兼容格式。

评估模型

涵盖三类 LLM:开源(LLaMA-3.3-70B、DeepSeek-v3、DeepSeek-r1)、闭源(GPT-4o、o1、o3-mini、Claude 3.5 Sonnet)和推理型(r1、o1、o3-mini)。

实验结果

FactBank 主要结果(Micro F1 %)

模型 方法 Full F1 Author F1 Nested F1
Flan-T5-XL (微调 SOTA) Fine-tune 69.5 76.6
DeepSeek r1 Unified 66.1 71.1 24.1
DeepSeek r1 Hybrid 72.0 77.6 25.3
o1 Hybrid 70.3 78.9 19.2
GPT-4o Hybrid 68.7 73.2 22.9
Claude 3.5 Hybrid 70.4 77.6 21.4
LLaMA 3.3 Hybrid 58.8 66.0 19.9
  • Hybrid 方法平均比 Unified 提升 5.7%(Full)、5.9%(Author)、2.0%(Nested)。
  • DeepSeek r1 Hybrid 以 72.0% Full F1 刷新 SOTA,超越微调模型 2.5%。

事件检测性能

模型 方法 F1
DeBERTa Fine-tuned 89.0
DeepSeek r1 Zero-shot 82.0
Claude 3.5 Zero-shot 83.3
GPT-4o Zero-shot 78.2
GPT-4o Few-shot 81.1

微调 DeBERTa 在事件检测上全面超越所有 LLM,证实了混合策略的必要性。

ModaFact 跨语言验证(Belief+Polarity F1)

mT5-XXL 微调 SOTA 为 64.4%,DeepSeek r1 Hybrid 达 63.6%,o3-mini 达 62.6%,在未针对意大利语优化的情况下接近 SOTA。

亮点

  • 首个零样本信念预测系统评估:填补了该任务在零样本设置下的研究空白,并达到新 SOTA。
  • 混合策略设计精妙:将 LLM 不擅长的事件检测交给微调专用模型,让 LLM 专注信念推理,平均提升近 6%。
  • 首次报告 Nested F1 指标:揭示了嵌套信念检测(F1 仅 25.3%)是 LLM 的显著短板。
  • 详尽的错误分析:将嵌套信念错误分为信源错配(123 例)、事件漏检(77 例)、事件过检(73 例)和标签错误(53 例)四类。
  • 跨语言验证:在意大利语 ModaFact 上验证了方法的可迁移性。

局限性

  • 嵌套信念性能很低:最佳 Nested F1 仅 25.3%,距离实用还有很大差距。
  • 依赖 API 调用做信源归一化:整体方案并非完全开源可复现,信源归一化依赖 GPT-4o API。
  • 单次运行报告:由于 API 成本(o1 单次运行高达 $75),FactBank 实验仅报告单次运行结果。
  • 未探索微调 LLM 的上限:所有 LLM 实验均为零样本,未与微调 LLM 方案做对比。
  • 意大利语结果未超越 SOTA:跨语言验证中 Hybrid 方法略低于微调 mT5-XXL(63.6% vs 64.4%)。

相关工作

  • 事件事实性语料:FactBank (Saurí and Pustejovsky, 2009) 是首个标注源-目标信念的语料;MAVEN-Fact (Li et al., 2024) 提供大规模事件事实性标注。
  • 信念预测方法:Murzaku and Rambow (2024) 的 BeLeaf 系统用 Flan-T5 以树生成方式建模信念结构,是此前 SOTA。
  • 微调方法:Pouran Ben Veyseh et al. (2019) 用图卷积网络 + BERT 表示;Jiang and de Marneffe (2021) 用 RoBERTa + span 表示。
  • LLM 推理能力:Wei et al. (2022) 的 CoT prompting 在此任务中被证明有效;Li et al. (2024) 在 MAVEN-Fact 上尝试 LLM few-shot 学习。
  • 跨语言信念检测:Rovera et al. (2025) 的 ModaFact 语料为意大利语信念检测提供了评估基准。

评分

  • ⭐⭐⭐⭐ 新颖性:首个零样本信念预测评估,混合策略设计新颖,首次报告嵌套信念指标
  • ⭐⭐⭐ 实用性:揭示了 LLM 在信念理解上的不足,但嵌套信念性能过低难以直接应用
  • ⭐⭐⭐⭐ 实验充分度:7 个模型 × 2 种方法 × 跨语言验证,错误分析详尽
  • ⭐⭐⭐⭐ 写作清晰度:任务定义清晰,示例直观,结果呈现有条理