Zero-Shot Belief: A Hard Problem for LLMs¶

会议: ACL 2025
arXiv: 无
代码: 无
领域: LLM / NLP

一句话总结¶

本文提出了统一式和混合式两种零样本框架用于源-目标信念预测任务，使用 DeBERTa 事件标注器 + LLM 的混合方法在 FactBank 上达到新 SOTA（Full F1 72.0%），同时揭示了嵌套信念预测（Nested F1 仅 25.3%）对 LLM 而言仍是极大挑战。

背景与动机¶

信念/事件事实性检测是核心 NLP 任务：判断文本中作者或引用源对事件的事实性承诺程度，对信息抽取、假新闻检测等有重要意义。
此前无零样本实验：虽然该任务已研究多年，但此前所有方法均依赖微调，从未有零样本实验评估 LLM 在此任务上的表现。
嵌套信念更具挑战：除作者信念外，还需识别文本中提到的嵌套信源（如"公司称..."）对事件的信念，这一子任务从未被专门评估。
LLM 推理能力的新测试场景：信念检测需要语用理解和多层推理，是检验 LLM 深层语言理解能力的良好切入点。
事件识别本身就很困难：FactBank 中事件的定义复杂，即使微调专用模型也仅达 85.4% F1，LLM 在此子任务上表现更差。
跨语言验证需求：信念检测方法的多语言迁移能力（如意大利语 ModaFact 语料）尚未被系统检验。

方法详解¶

任务定义¶

给定文本，需识别：(1) 事件（event）、(2) 信源（source，包括作者和嵌套信源）、(3) 每个信源对每个事件的事实性标签（如 Factual、Probable、Unknown 等）。

统一式（Unified）方法¶

设计单一端到端零样本 prompt，包含： - 输入文本和任务高层描述 - 三步注释流程的详细说明：(1) 标注所有事件 (2) 识别嵌套信源 (3) 为每个信源分配事实性标签 - 特殊情况处理指南和输出格式 - Chain-of-Thought (CoT) 推理步骤总结

混合式（Hybrid）方法¶

分解流水线，解耦事件检测与信念标注： 1. 事件检测：使用微调的 DeBERTa 模型进行事件 token 检测（F1 89.0%），避免让 LLM 处理其不擅长的子任务。 2. LLM 信念标注：将检测到的事件列表和原文一起送入 LLM prompt，指示其识别嵌套信源并分配事实性标签，同样使用 CoT 格式。

信源归一化¶

FactBank 在 token 级别标注信源（如 "Trurit Inc." 标注为 "Inc."），使用 GPT-4o 进行少样本后处理将 LLM 预测的信源转换为 FactBank 兼容格式。

评估模型¶

涵盖三类 LLM：开源（LLaMA-3.3-70B、DeepSeek-v3、DeepSeek-r1）、闭源（GPT-4o、o1、o3-mini、Claude 3.5 Sonnet）和推理型（r1、o1、o3-mini）。

实验结果¶

FactBank 主要结果（Micro F1 %）¶

模型	方法	Full F1	Author F1	Nested F1
Flan-T5-XL (微调 SOTA)	Fine-tune	69.5	76.6	—
DeepSeek r1	Unified	66.1	71.1	24.1
DeepSeek r1	Hybrid	72.0	77.6	25.3
o1	Hybrid	70.3	78.9	19.2
GPT-4o	Hybrid	68.7	73.2	22.9
Claude 3.5	Hybrid	70.4	77.6	21.4
LLaMA 3.3	Hybrid	58.8	66.0	19.9

Hybrid 方法平均比 Unified 提升 5.7%（Full）、5.9%（Author）、2.0%（Nested）。
DeepSeek r1 Hybrid 以 72.0% Full F1 刷新 SOTA，超越微调模型 2.5%。

事件检测性能¶

模型	方法	F1
DeBERTa	Fine-tuned	89.0
DeepSeek r1	Zero-shot	82.0
Claude 3.5	Zero-shot	83.3
GPT-4o	Zero-shot	78.2
GPT-4o	Few-shot	81.1

微调 DeBERTa 在事件检测上全面超越所有 LLM，证实了混合策略的必要性。

ModaFact 跨语言验证（Belief+Polarity F1）¶

mT5-XXL 微调 SOTA 为 64.4%，DeepSeek r1 Hybrid 达 63.6%，o3-mini 达 62.6%，在未针对意大利语优化的情况下接近 SOTA。

亮点¶

首个零样本信念预测系统评估：填补了该任务在零样本设置下的研究空白，并达到新 SOTA。
混合策略设计精妙：将 LLM 不擅长的事件检测交给微调专用模型，让 LLM 专注信念推理，平均提升近 6%。
首次报告 Nested F1 指标：揭示了嵌套信念检测（F1 仅 25.3%）是 LLM 的显著短板。
详尽的错误分析：将嵌套信念错误分为信源错配（123 例）、事件漏检（77 例）、事件过检（73 例）和标签错误（53 例）四类。
跨语言验证：在意大利语 ModaFact 上验证了方法的可迁移性。

局限性¶

嵌套信念性能很低：最佳 Nested F1 仅 25.3%，距离实用还有很大差距。
依赖 API 调用做信源归一化：整体方案并非完全开源可复现，信源归一化依赖 GPT-4o API。
单次运行报告：由于 API 成本（o1 单次运行高达 $75），FactBank 实验仅报告单次运行结果。
未探索微调 LLM 的上限：所有 LLM 实验均为零样本，未与微调 LLM 方案做对比。
意大利语结果未超越 SOTA：跨语言验证中 Hybrid 方法略低于微调 mT5-XXL（63.6% vs 64.4%）。

评分¶

⭐⭐⭐⭐ 新颖性：首个零样本信念预测评估，混合策略设计新颖，首次报告嵌套信念指标
⭐⭐⭐ 实用性：揭示了 LLM 在信念理解上的不足，但嵌套信念性能过低难以直接应用
⭐⭐⭐⭐ 实验充分度：7 个模型 × 2 种方法 × 跨语言验证，错误分析详尽
⭐⭐⭐⭐ 写作清晰度：任务定义清晰，示例直观，结果呈现有条理