跳转至

Un-considering Contextual Information: Assessing LLMs' Understanding of Indexical Elements

会议: ACL2025 arXiv: 2506.01089 代码: metehanoguzz/LLMs-Indexicals-English 领域: llm_nlp 关键词: 指示词理解, 共指消解, LLM语言能力评估, 语用学

一句话总结

首次系统评估 LLM 对英语指示词(I/you/here/tomorrow)的理解能力,发现模型在 "I" 上表现接近人类但在 "you/here/tomorrow" 上严重依赖无关上下文信息而非语法规则,揭示了 LLM 在语用推理上的根本缺陷。

背景与动机

  1. 共指消解研究空白:此前对 LLM 共指消解能力的评估主要集中在名词和第三人称代词(如 he/she),但对指示词(indexicals)的理解能力几乎未被研究。
  2. 指示词的独特语言学性质:指示词如 I/you/here/tomorrow 与普通代词根本不同——它们明确指向言语行为坐标(说话人、听话人、地点、时间),理论上是无歧义的,不应受上下文语义信息影响。
  3. 引号转移现象:直接引语中指示词的解释会"转移"到被引述的语境中(如 Andrew said "I am smart" 中 I 指 Andrew 而非实际说话人),这为 LLM 增加了额外的语法推理挑战。
  4. 指示词 vs 代词的关键区别:第三人称代词(如 he)本质上是歧义的,需要语境消歧;而指示词由语法规则严格决定,应当"忽略"可能误导的上下文信息——这恰好是对 LLM 的反直觉挑战。
  5. LLM 日益广泛的应用:随着 LLM 在教育、法律、医疗等领域的应用扩大,理解它们对基础语言现象的处理能力变得越来越重要。
  6. 跨语言差异的启示:先前对土耳其语指示词的研究(Oğuz et al., 2024)显示 LLM 表现极差,但英语中是否如此尚不清楚,且两种语言的指示词具有不同的语法属性。

方法详解

数据集构建:English Indexical Dataset

  • 规模:1600 个多选题,涵盖 4 种指示词 × 每种 400 样本
  • 4 种指示词:I(第一人称)、you(第二人称)、here(地点)、tomorrow(时间)
  • 每种指示词的 4 个条件(2×2 设计):
  • 句子类型:引号句(quoted)vs 非引号句(non-quoted)
  • 上下文启动:shifted prime(上下文倾向于引述解读)vs non-shifted prime(上下文倾向于字面解读)
  • 正确答案规则:非引号句中应选 non-shifted 选项;引号句中应选 shifted 选项(因引号内指示词转移到被引述语境)
  • 数据生成:使用 GPT-4o 生成场景和上下文描述,人工验证 25%(400 条)确保语法正确性、引号条件一致性和上下文启动有效性
  • 性别平衡:男女名字各 50%,消除潜在性别偏差

评估模型

  • GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、DeepSeek-V3 共 4 个前沿 LLM

评估方式

  • 限制模型只能在两个预定义选项(shifted vs non-shifted)中选择
  • 分别在 4 个条件下统计准确率

实验关键数据

表1:各指示词在不同条件下的模型准确率

指示词 条件 GPT-4o Claude 3.5 Gemini 1.5 DeepSeek-V3
I 非引号 ~99% ~99% ~99% ~99%
I 引号 >94% 89% >94% 17-78%(受context影响大)
you 非引号 ~70-80% ~70-80% 92% ~70-80%
you 引号 显著下降 显著下降 显著下降 显著下降
here 非引号-shifted prime >96% >96% >96% >96%
here 非引号-non-shifted prime <2% <2% <2% <2%
here 引号 37% 64% 94% >97%
tomorrow 非引号 ~94-100% 100% 100% 83%
tomorrow 引号 极低 ~0% ~0% 极低

表2:关键发现汇总

发现维度 具体结论
I 的理解 除 DeepSeek 引号条件外,所有模型接近完美
you 的理解 所有模型严重受上下文启动影响,引号反而降低准确率
here 的理解 非引号下完全依赖上下文(非语法),引号反而帮助提升
tomorrow 的理解 强烈偏向 non-shifted 解读,引号条件下准确率接近 0
引号效应 here 上有正面效应,you 和 tomorrow 上有负面效应

亮点

  • 首创性强:首个系统评估 LLM 英语指示词理解的研究,填补了语言学-NLP 交叉领域的重要空白
  • 实验设计精巧:2×2 因素设计(句子类型 × 上下文启动)精准区分了语法规则遵循 vs 上下文依赖
  • 揭示深层问题:LLM 倾向于用上下文语义"猜测"答案,而非遵循指示词的语法规则——这说明 LLM 的语言能力更像统计关联而非真正的语法理解
  • 跨语言对比视角:与土耳其语研究对比,揭示了语言资源量和语言类型学特征对 LLM 表现的影响

局限性 / 可改进方向

  • 黑盒评估:仅从外部行为评估,未分析模型内部表示或注意力机制,无法解释 LLM 为何犯错
  • 仅评估英语:指示词在不同语言中有不同的语法属性(如土耳其语允许无引号转移),跨语言泛化需进一步研究
  • 数据集规模有限:每种条件仅 100 个基础句子,可能不足以捕捉所有边界情况
  • 缺乏改进方案:论文仅诊断问题未提出解决方案,如针对性的 prompt 工程或微调策略
  • 模型版本时效性:评估的模型版本可能已更新,新版本表现可能不同
  • 未覆盖更多指示词:英语中还有 now、this、that 等指示词未纳入评估
  • GPT-4o 生成数据的潜在偏差:使用被评估模型之一生成测试数据,可能引入系统性偏差
  • 缺少统计检验:各模型间和条件间的差异未报告显著性检验结果

与相关工作的对比

vs Oğuz et al. (2024)(土耳其语指示词研究)

同一研究组的先前工作评估了 LLM 对土耳其语第一人称指示词 ben("I")的理解,发现表现极差。本文发现英语 I 的理解则接近人类水平。作者分析差异可能源于:(1) 训练数据中英语资源远多于土耳其语;(2) 土耳其语是 pro-drop 语言(代词可省略),测试中使用了省略形式增加了难度。

vs 传统共指消解研究(Gan et al., 2024; Le & Ritter, 2023)

传统研究聚焦于第三人称代词和名词的共指消解,这些情况下上下文信息是消歧的关键线索。本文揭示了指示词的独特挑战:模型需要忽略而非利用上下文信息,这与传统共指消解恰好相反,暴露了 LLM 过度依赖统计关联的问题。

vs MARS / LARS(Bakman et al., 2024; Yaldiz et al., 2024)

同一研究组成员此前在 LLM 不确定性评分方面有工作,本文转向评估 LLM 的基础语言理解能力。两条研究线互补:不确定性估计关注"模型知不知道自己不知道",而本文关注"模型能否遵循语法规则而非走捷径"。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个英语指示词 LLM 理解评估,选题独特且有理论深度
  • 实验充分度: ⭐⭐⭐ — 4 个模型 × 4 种指示词 × 4 个条件,但缺少开源模型和改进实验
  • 写作质量: ⭐⭐⭐⭐ — 语言学背景介绍清晰,实验设计和结果讨论逻辑严密
  • 价值: ⭐⭐⭐⭐ — 揭示了 LLM 语言理解的深层缺陷,对理解和改进 LLM 语用能力有重要启示