Meaning Beyond Truth Conditions: Evaluating Discourse Level Understanding via Anaphora Accessibility¶

会议: ACL 2025
arXiv: 2502.14119
代码: 无
领域: LLM/NLP
关键词: 话语语义理解, 照应可及性, 动态语义学, LLM评估, 形式语义学

一句话总结¶

本文提出语义理解能力的层级框架（词汇/句子/话语），构建了基于照应可及性（anaphora accessibility）的评估数据集，发现 LLM 在某些结构上与人类一致但在其他结构上存在系统性分歧——LLM 依赖词汇线索而非结构化抽象。

研究背景与动机¶

LLM 的成功依赖于自然语言理解能力，但现有评估任务很少考察 LLM 是否能准确表示和更新话语状态。成功解读话语需要利用代词来指代文本中已引入的实体——这就是照应（anaphora）的问题。

照应的合适性受到前件语义辖域（scope）的影响。以经典例子说明：

"A farmer worked in his field. He dreamed of the harvest." ✓（存在量词引入的实体可被后续句子指代）
"Every farmer worked in his field. He dreamed of the harvest." ✗（全称量词引入的实体在辖域外不可及）

这种现象在动态语义学（Dynamic Semantics）中有严格的形式化——话语意义不仅是静态的真值条件，而是对话语状态的更新操作。不同量词和逻辑连接词决定了话语实体（discourse referent）的可及范围。

现有工作的不足： - Schuster and Linzen (2022) 只考虑了否定与话语实体的交互 - Kim and Schuster (2023) 使用过于简单的语言（如"Box 1 contains the book"） - 缺乏对全称量词、条件句、析取等多种作用域与照应交互的系统评估

方法详解¶

整体框架¶

作者提出三层语义理解能力层级：

词汇层（Lexical Level）：理解单个词义——同义、反义、蕴含等
句子层（Sentence Level）：整合词汇意义，形成句子真值条件表示
话语层（Discourse Level）：整合连续句子意义，更新话语表示

本文聚焦话语层，利用照应可及性作为诊断工具，评估 LLM 是否理解不同语义算子如何影响话语状态更新。

关键设计¶

实验涵盖三类语义构造：

1. 全称量词（Universal Quantifiers）

简单对比：A farmer vs. Every farmer + 跨句照应
条件句（Donkey Conditionals）：
- "John owns a donkey, and he beats it. It is a big one." ✓（存在量词）
- "If John owns a donkey, he beats it. It is a big one." ✗（条件句隐含全称量化）
- "Whenever John owns a donkey, he beats it. It is a big one." ✗（同上）

2. 否定（Negation）

存在量词：The farmer owned a cow. → It was away on the meadow. ✓
否定：The farmer didn't own a cow. → It was away on the meadow. ✗
双重否定：It was not the case that the farmer didn't own a cow. → It was away on the meadow. ✓
双重否定消解：两个否定相互抵消，语义等价于存在量词

3. 析取（Disjunction）

Evans (1977) 的发现：存在量词在析取第一项中不授权第二项的照应，但否定量词可以
"Either there was a manuscript, or it was hidden..." ✗
"Either there was no manuscript, or it was hidden..." ✓
either 的有无不影响语义（or vs. Either...or 等价）
否定量词在连词中不具有同样效果

评估指标：

差异的差异（Difference-of-Difference）度量：比较单句内照应（in-scope）和跨句照应（cross-sentence）在存在量词和全称量词下的概率差异，控制了句子复杂度等混淆因素
条件概率指标：比较同一后续句在不同上下文下的总 surprisal
SLOR（Syntactic Log-Odds Ratio）：对析取实验使用，控制句子长度和词频

模型与人类实验： - 4 个开源 LLM：Llama3-2-1B/3B、Llama3-1-8B、Llama3-1-8B-Instruct - 2 个闭源 LLM：GPT babbage-002、davinci-002 - 人类实验：104 名参与者通过 Prolific 招募，66 个强制选择试次

语料构建： - 从结构模板生成，人工构建 32 个语义合理的句子框架 - 语言学专家人工检查确保可接受性/不可接受性 - 共 9816 个实验句子

损失函数 / 训练策略¶

本文不涉及模型训练，而是将 LLM 作为心理语言学被试（psycholinguistic subjects），通过其对 token 的 surprisal（负对数概率）来度量话语理解能力。

实验关键数据¶

主实验¶

实验 1：全称量词

简单对比（Exi > Every）：Llama 家族约 75% 准确率，GPT 家族略低，人类接近上限
条件句（Exi > If, Exi > Whenever）：所有 LLM 接近上限（>90%），但人类准确率反而较低
有趣分歧：he-后续句中人类偏好 if/whenever 条件句（逆转预期方向），可能因"telescoping"效应——人类倾向将 he 解读为在条件句辖域内

实验 2：否定

Exi > Neg：所有模型成功区分，准确率高
DN > Neg（双重否定 > 单否定）：3 个模型失败，Llama3-1-8B 系列甚至偏好否定优于双重否定（预期方向的反转）
添加 "in fact" 后：DN > Neg 准确率提升，但 Exi > Neg 准确率反转
关键发现：LLM 对否定辖域的理解不系统，严重依赖 "in fact" 等词汇线索

实验 3：析取

EitherOr > Conjunction 和 EitherOr > EitherPosOr：所有模型达到上限，与人类一致
or > Conjunction：模型准确率接近随机，人类表现出预期偏好
EitherPosOr vs. or：模型偏好 EitherPosOr（预期方向的反转），人类无明显偏好
关键发现：虽然 EitherOr 和 or 语义等价，但模型表现严重依赖是否存在 "either" 这个词

消融实验¶

"in fact" 词汇影响实验是核心消融： - 添加 "in fact" 使双重否定偏好增加 → 说明 LLM 依赖词汇共现模式而非语义理解 - 同时使存在量词偏好下降 → 表明 "in fact" 通常与否定/反转语境共现，导致 LLM 错误推断 - 人类在两种条件下表现稳定 → 人类理解基于结构抽象而非词汇线索

关键发现¶

LLM 和人类在某些任务上一致：全称量词的基本辖域限制被所有 LLM 正确学习
LLM 不理解双重否定消解：无法将双重否定正确等同于存在量词
LLM 的话语理解依赖词汇线索而非结构：either 的有无、in fact 的添加都会影响判断，但不应影响
人类表现出 LLM 没有的结构敏感性：特别是 telescoping 效应和对否定辖域的稳定理解
话语层理解是 LLM 的系统性弱点：即使在句子层表现良好，话语层仍存在根本缺陷

亮点与洞察¶

理论驱动的评估设计：严格基于动态语义学理论构建测试项，而非简单的经验性测试
三层语义理解框架：为评估 LLM 语义能力提供了系统化的思考框架
人机对比的深刻洞察：不仅展示了 LLM 在哪里失败，还解释了为什么失败——词汇依赖 vs 结构抽象
连接形式语义学与 NLP：将 Heim (1983)、Groenendijk and Stokhof (1991) 等经典理论引入 LLM 评估

局限与展望¶

模型范围有限：未能测试 GPT-4o 等最新模型（API 不支持 log probability 访问）
仅考虑英语：照应可及性的规则在不同语言中可能不同
模板生成的刺激材料：虽经专家检查，但可能不够自然
仅使用 surprisal 指标：无法直接探测模型内部表示
未包含所有相关语义构造：如条件句的其他变体、量词作用域交互等
人类实验样本量（104人）对某些效应可能不够

评分¶

创新性：★★★★★（理论驱动的系统评估，填补重要空白）
实验充分性：★★★★☆（三组实验 + 人类对照，但模型范围受限）
实用价值：★★★☆☆（主要贡献在理论洞察层面，工程应用有限）
写作质量：★★★★★（论证严密，理论与实验结合优秀）