Un-considering Contextual Information: Assessing LLMs' Understanding of Indexical Elements¶

会议: ACL2025 arXiv: 2506.01089 代码: metehanoguzz/LLMs-Indexicals-English 领域: llm_nlp 关键词: 指示词理解, 共指消解, LLM语言能力评估, 语用学

一句话总结¶

首次系统评估 LLM 对英语指示词（I/you/here/tomorrow）的理解能力，发现模型在 "I" 上表现接近人类但在 "you/here/tomorrow" 上严重依赖无关上下文信息而非语法规则，揭示了 LLM 在语用推理上的根本缺陷。

共指消解研究空白：此前对 LLM 共指消解能力的评估主要集中在名词和第三人称代词（如 he/she），但对指示词（indexicals）的理解能力几乎未被研究。
指示词的独特语言学性质：指示词如 I/you/here/tomorrow 与普通代词根本不同——它们明确指向言语行为坐标（说话人、听话人、地点、时间），理论上是无歧义的，不应受上下文语义信息影响。
引号转移现象：直接引语中指示词的解释会"转移"到被引述的语境中（如 Andrew said "I am smart" 中 I 指 Andrew 而非实际说话人），这为 LLM 增加了额外的语法推理挑战。
指示词 vs 代词的关键区别：第三人称代词（如 he）本质上是歧义的，需要语境消歧；而指示词由语法规则严格决定，应当"忽略"可能误导的上下文信息——这恰好是对 LLM 的反直觉挑战。
LLM 日益广泛的应用：随着 LLM 在教育、法律、医疗等领域的应用扩大，理解它们对基础语言现象的处理能力变得越来越重要。
跨语言差异的启示：先前对土耳其语指示词的研究（Oğuz et al., 2024）显示 LLM 表现极差，但英语中是否如此尚不清楚，且两种语言的指示词具有不同的语法属性。

指示词	条件	GPT-4o	Claude 3.5	Gemini 1.5	DeepSeek-V3
I	非引号	~99%	~99%	~99%	~99%
I	引号	>94%	89%	>94%	17-78%（受context影响大）
you	非引号	~70-80%	~70-80%	92%	~70-80%
you	引号	显著下降	显著下降	显著下降	显著下降
here	非引号-shifted prime	>96%	>96%	>96%	>96%
here	非引号-non-shifted prime	<2%	<2%	<2%	<2%
here	引号	37%	64%	94%	>97%
tomorrow	非引号	~94-100%	100%	100%	83%
tomorrow	引号	极低	~0%	~0%	极低

发现维度	具体结论
I 的理解	除 DeepSeek 引号条件外，所有模型接近完美
you 的理解	所有模型严重受上下文启动影响，引号反而降低准确率
here 的理解	非引号下完全依赖上下文（非语法），引号反而帮助提升
tomorrow 的理解	强烈偏向 non-shifted 解读，引号条件下准确率接近 0
引号效应	here 上有正面效应，you 和 tomorrow 上有负面效应

同一研究组的先前工作评估了 LLM 对土耳其语第一人称指示词 ben（"I"）的理解，发现表现极差。本文发现英语 I 的理解则接近人类水平。作者分析差异可能源于：(1) 训练数据中英语资源远多于土耳其语；(2) 土耳其语是 pro-drop 语言（代词可省略），测试中使用了省略形式增加了难度。

传统研究聚焦于第三人称代词和名词的共指消解，这些情况下上下文信息是消歧的关键线索。本文揭示了指示词的独特挑战：模型需要忽略而非利用上下文信息，这与传统共指消解恰好相反，暴露了 LLM 过度依赖统计关联的问题。

同一研究组成员此前在 LLM 不确定性评分方面有工作，本文转向评估 LLM 的基础语言理解能力。两条研究线互补：不确定性估计关注"模型知不知道自己不知道"，而本文关注"模型能否遵循语法规则而非走捷径"。