Zero-Shot Belief: A Hard Problem for LLMs¶
会议: ACL 2025
arXiv: 无
代码: 无
领域: LLM / NLP
一句话总结¶
本文提出了统一式和混合式两种零样本框架用于源-目标信念预测任务,使用 DeBERTa 事件标注器 + LLM 的混合方法在 FactBank 上达到新 SOTA(Full F1 72.0%),同时揭示了嵌套信念预测(Nested F1 仅 25.3%)对 LLM 而言仍是极大挑战。
背景与动机¶
- 信念/事件事实性检测是核心 NLP 任务:判断文本中作者或引用源对事件的事实性承诺程度,对信息抽取、假新闻检测等有重要意义。
- 此前无零样本实验:虽然该任务已研究多年,但此前所有方法均依赖微调,从未有零样本实验评估 LLM 在此任务上的表现。
- 嵌套信念更具挑战:除作者信念外,还需识别文本中提到的嵌套信源(如"公司称...")对事件的信念,这一子任务从未被专门评估。
- LLM 推理能力的新测试场景:信念检测需要语用理解和多层推理,是检验 LLM 深层语言理解能力的良好切入点。
- 事件识别本身就很困难:FactBank 中事件的定义复杂,即使微调专用模型也仅达 85.4% F1,LLM 在此子任务上表现更差。
- 跨语言验证需求:信念检测方法的多语言迁移能力(如意大利语 ModaFact 语料)尚未被系统检验。
方法详解¶
任务定义¶
给定文本,需识别:(1) 事件(event)、(2) 信源(source,包括作者和嵌套信源)、(3) 每个信源对每个事件的事实性标签(如 Factual、Probable、Unknown 等)。
统一式(Unified)方法¶
设计单一端到端零样本 prompt,包含: - 输入文本和任务高层描述 - 三步注释流程的详细说明:(1) 标注所有事件 (2) 识别嵌套信源 (3) 为每个信源分配事实性标签 - 特殊情况处理指南和输出格式 - Chain-of-Thought (CoT) 推理步骤总结
混合式(Hybrid)方法¶
分解流水线,解耦事件检测与信念标注: 1. 事件检测:使用微调的 DeBERTa 模型进行事件 token 检测(F1 89.0%),避免让 LLM 处理其不擅长的子任务。 2. LLM 信念标注:将检测到的事件列表和原文一起送入 LLM prompt,指示其识别嵌套信源并分配事实性标签,同样使用 CoT 格式。
信源归一化¶
FactBank 在 token 级别标注信源(如 "Trurit Inc." 标注为 "Inc."),使用 GPT-4o 进行少样本后处理将 LLM 预测的信源转换为 FactBank 兼容格式。
评估模型¶
涵盖三类 LLM:开源(LLaMA-3.3-70B、DeepSeek-v3、DeepSeek-r1)、闭源(GPT-4o、o1、o3-mini、Claude 3.5 Sonnet)和推理型(r1、o1、o3-mini)。
实验结果¶
FactBank 主要结果(Micro F1 %)¶
| 模型 | 方法 | Full F1 | Author F1 | Nested F1 |
|---|---|---|---|---|
| Flan-T5-XL (微调 SOTA) | Fine-tune | 69.5 | 76.6 | — |
| DeepSeek r1 | Unified | 66.1 | 71.1 | 24.1 |
| DeepSeek r1 | Hybrid | 72.0 | 77.6 | 25.3 |
| o1 | Hybrid | 70.3 | 78.9 | 19.2 |
| GPT-4o | Hybrid | 68.7 | 73.2 | 22.9 |
| Claude 3.5 | Hybrid | 70.4 | 77.6 | 21.4 |
| LLaMA 3.3 | Hybrid | 58.8 | 66.0 | 19.9 |
- Hybrid 方法平均比 Unified 提升 5.7%(Full)、5.9%(Author)、2.0%(Nested)。
- DeepSeek r1 Hybrid 以 72.0% Full F1 刷新 SOTA,超越微调模型 2.5%。
事件检测性能¶
| 模型 | 方法 | F1 |
|---|---|---|
| DeBERTa | Fine-tuned | 89.0 |
| DeepSeek r1 | Zero-shot | 82.0 |
| Claude 3.5 | Zero-shot | 83.3 |
| GPT-4o | Zero-shot | 78.2 |
| GPT-4o | Few-shot | 81.1 |
微调 DeBERTa 在事件检测上全面超越所有 LLM,证实了混合策略的必要性。
ModaFact 跨语言验证(Belief+Polarity F1)¶
mT5-XXL 微调 SOTA 为 64.4%,DeepSeek r1 Hybrid 达 63.6%,o3-mini 达 62.6%,在未针对意大利语优化的情况下接近 SOTA。
亮点¶
- 首个零样本信念预测系统评估:填补了该任务在零样本设置下的研究空白,并达到新 SOTA。
- 混合策略设计精妙:将 LLM 不擅长的事件检测交给微调专用模型,让 LLM 专注信念推理,平均提升近 6%。
- 首次报告 Nested F1 指标:揭示了嵌套信念检测(F1 仅 25.3%)是 LLM 的显著短板。
- 详尽的错误分析:将嵌套信念错误分为信源错配(123 例)、事件漏检(77 例)、事件过检(73 例)和标签错误(53 例)四类。
- 跨语言验证:在意大利语 ModaFact 上验证了方法的可迁移性。
局限性¶
- 嵌套信念性能很低:最佳 Nested F1 仅 25.3%,距离实用还有很大差距。
- 依赖 API 调用做信源归一化:整体方案并非完全开源可复现,信源归一化依赖 GPT-4o API。
- 单次运行报告:由于 API 成本(o1 单次运行高达 $75),FactBank 实验仅报告单次运行结果。
- 未探索微调 LLM 的上限:所有 LLM 实验均为零样本,未与微调 LLM 方案做对比。
- 意大利语结果未超越 SOTA:跨语言验证中 Hybrid 方法略低于微调 mT5-XXL(63.6% vs 64.4%)。
相关工作¶
- 事件事实性语料:FactBank (Saurí and Pustejovsky, 2009) 是首个标注源-目标信念的语料;MAVEN-Fact (Li et al., 2024) 提供大规模事件事实性标注。
- 信念预测方法:Murzaku and Rambow (2024) 的 BeLeaf 系统用 Flan-T5 以树生成方式建模信念结构,是此前 SOTA。
- 微调方法:Pouran Ben Veyseh et al. (2019) 用图卷积网络 + BERT 表示;Jiang and de Marneffe (2021) 用 RoBERTa + span 表示。
- LLM 推理能力:Wei et al. (2022) 的 CoT prompting 在此任务中被证明有效;Li et al. (2024) 在 MAVEN-Fact 上尝试 LLM few-shot 学习。
- 跨语言信念检测:Rovera et al. (2025) 的 ModaFact 语料为意大利语信念检测提供了评估基准。
评分¶
- ⭐⭐⭐⭐ 新颖性:首个零样本信念预测评估,混合策略设计新颖,首次报告嵌套信念指标
- ⭐⭐⭐ 实用性:揭示了 LLM 在信念理解上的不足,但嵌套信念性能过低难以直接应用
- ⭐⭐⭐⭐ 实验充分度:7 个模型 × 2 种方法 × 跨语言验证,错误分析详尽
- ⭐⭐⭐⭐ 写作清晰度:任务定义清晰,示例直观,结果呈现有条理