Expect the Unexpected? Testing the Surprisal of Salient Entities¶

会议: ACL 2026
arXiv: 2604.10724
代码: 无
领域: 计算语言学 / 信息论
关键词: 信息密度均匀性, 话语显著性, 惊异度, 实体突出度, 语篇结构

一句话总结¶

本文研究全局显著实体（discourse-level salient entities）与惊异度（surprisal）的关系，通过 70K+ 手工标注的实体提及和新颖的最小对提示方法，发现全局显著实体本身更出人意料（更高 surprisal），但它们系统性地降低周围内容的 surprisal，且该效应随体裁变化——话题连贯性高的文本中效应最强。

研究背景与动机¶

领域现状：信息密度均匀性（UID）假说认为说话者倾向于在话语中均匀分布信息，使惊异度大致恒定。然而，多项研究发现系统性偏离——语音学约束（词首高 surprisal）、句法约束、话语结构约束等"竞争性压力"会产生局部非均匀性。

现有痛点：(1) 先前的 UID 研究基本忽略了话语参与者的相对显著性——哪些实体是文本的"主角"；(2) 关于显著实体本身是否更可预测还是更出人意料，现有结果相互矛盾；(3) 多种因素（语法角色、近期性、指称形式等）影响实体可预测性，难以在自然语境中分离显著性效应。

核心矛盾：一方面，显著实体因反复提及而更可预测；另一方面，它们作为信息承载者可能包含更高信息量。两种效应如何在篇章层面交互？

本文目标：首次系统研究全局实体显著性与 surprisal 的关系，区分实体自身的 surprisal 和实体对周围内容 surprisal 的影响。

切入角度：利用 GUM-SAGE 数据集的手工标注（基于摘要一致性的显著性评分）和 16 种体裁的多样性，结合最小对提示方法控制混淆因素。

核心 idea：全局显著实体扮演"锚点"角色——它们本身承载更多信息（高 surprisal），但通过建立话题期望显著降低后续内容的不确定性，形成局部 surprisal"低谷"。

方法详解¶

整体框架¶

研究分三个层次展开：(1) RQ1——分析自然语料中显著实体的 surprisal 特征（控制位置、长度、嵌套等混淆因素）；(2) RQ2——使用最小对提示范式（替换显著 vs 非显著实体）测量实体对文档内容可预测性的因果影响；(3) RQ3——跨 16 种体裁比较效应强度。

关键设计¶

基于摘要一致性的全局显著性度量:
- 功能：提供量化的话语级实体重要性评分
- 核心思路：利用 GUM-SAGE 数据集，每篇文档有 5 份独立摘要。若一个实体在所有 5 份摘要中都被提及，得分为 5（最显著）；仅在 1 份中出现得分为 1；从未出现得分为 0（约 84.5% 的实体）。数据包含超过 70K 个实体提及，覆盖 31K 个独立实体
- 设计动机：基于"如果一个实体是显著的，就很难写出不提及它的摘要"这一直觉——摘要一致性提供了稳健的、可操作的显著性定义
最小对提示范式 (Minimal-Pair Prompting):
- 功能：控制混淆因素，测量实体对后续内容 surprisal 的因果效应
- 核心思路：对同一文档内容，分别以显著实体和非显著实体作为提示前缀，比较语言模型对后续文本的 surprisal。如果显著实体真的增强了文档内容的可预测性，那么以显著实体为提示时后续内容的 surprisal 应更低
- 设计动机：自然语料中多种因素协同作用，无法分离显著性的独立贡献。最小对设计通过固定其他因素，只变化实体身份，实现了准因果推断
跨体裁分析:
- 功能：揭示显著性-surprisal 关系的调节因素
- 核心思路：GUM 语料库涵盖 16 种体裁（学术论文、传记、vlog、对话、法庭记录、散文、小说、论坛等），分别分析效应强度。预期话题连贯性强的文本（如学术论文——聚焦单一主题）效应最强，话题切换频繁的文本（如对话）效应最弱
- 设计动机：如果显著性效应通过话题期望机制运作，那么话题一致性应是关键调节因素

损失函数 / 训练策略¶

本文为分析性工作，不涉及模型训练。使用语言模型计算 surprisal（负对数概率），在 GUM v11 语料库（250K+ tokens，16 种体裁）上进行统计分析。

实验关键数据¶

主实验¶

研究问题	核心发现
RQ1: 显著实体自身 surprisal	全局显著实体的 surprisal 显著高于非显著实体，控制位置、长度、嵌套后仍成立
RQ2: 对周围内容的影响	显著实体系统性降低后续内容的 surprisal，创造局部"低谷"
RQ3: 体裁差异	效应在话题连贯文本（学术论文）中最强，在对话语境中最弱

消融实验¶

分析维度	结果
显著性分数 vs surprisal	正相关——得分越高，实体本身 surprisal 越高
最小对：显著 vs 非显著提示	显著实体提示下后续内容 surprisal 显著更低
话题连贯 vs 话题切换体裁	话题连贯体裁中效应强度约为话题切换体裁的 2-3 倍

关键发现¶

全局显著实体"更出人意料"但"使上下文更可预测"——两个看似矛盾的发现实际上反映了不同层面的信息组织
这一模式类似于语音学中的"词首高 surprisal"现象——信息在局部不均匀但在更大尺度上服务于整体均匀性
体裁效应符合话题连贯性假说，为 UID 竞争压力框架增添了指称结构这一新维度
约 84.5% 的实体得分为 0（非显著），表明大多数实体是"配角"

亮点与洞察¶

"显著实体是信息锚点"的洞察优雅统一了两个方向的发现——自身高 surprisal 是因为承载关键信息，降低周围 surprisal 是因为建立了强话题期望
最小对提示方法巧妙地将因果推理引入观察性语料分析，可推广到其他话语现象研究
将 UID 框架中的"竞争压力"扩展到指称结构维度——之前的工作只考虑了语音学、句法和话语结构

局限与展望¶

仅使用英语数据，跨语言泛化性未知
显著性基于摘要一致性，可能偏向于可提取的信息而非深层主题重要性
语言模型计算的 surprisal 不等于人类认知 surprisal
未探索动态显著性——实体的局部显著性可能随话语推进而变化

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究全局实体显著性与 surprisal 的关系，最小对方法新颖
实验充分度: ⭐⭐⭐⭐ 70K 标注、16 种体裁覆盖广泛，但仅限英语
写作质量: ⭐⭐⭐⭐⭐ 研究问题层次分明，分析逻辑严密，结论清晰
价值: ⭐⭐⭐⭐ 为 UID 理论增加了重要的指称结构维度，对话语处理和语言模型评估有启发