Un-considering Contextual Information: Assessing LLMs' Understanding of Indexical Elements¶
会议: ACL2025 arXiv: 2506.01089 代码: metehanoguzz/LLMs-Indexicals-English 领域: llm_nlp 关键词: 指示词理解, 共指消解, LLM语言能力评估, 语用学
一句话总结¶
首次系统评估 LLM 对英语指示词(I/you/here/tomorrow)的理解能力,发现模型在 "I" 上表现接近人类但在 "you/here/tomorrow" 上严重依赖无关上下文信息而非语法规则,揭示了 LLM 在语用推理上的根本缺陷。
背景与动机¶
- 共指消解研究空白:此前对 LLM 共指消解能力的评估主要集中在名词和第三人称代词(如 he/she),但对指示词(indexicals)的理解能力几乎未被研究。
- 指示词的独特语言学性质:指示词如 I/you/here/tomorrow 与普通代词根本不同——它们明确指向言语行为坐标(说话人、听话人、地点、时间),理论上是无歧义的,不应受上下文语义信息影响。
- 引号转移现象:直接引语中指示词的解释会"转移"到被引述的语境中(如 Andrew said "I am smart" 中 I 指 Andrew 而非实际说话人),这为 LLM 增加了额外的语法推理挑战。
- 指示词 vs 代词的关键区别:第三人称代词(如 he)本质上是歧义的,需要语境消歧;而指示词由语法规则严格决定,应当"忽略"可能误导的上下文信息——这恰好是对 LLM 的反直觉挑战。
- LLM 日益广泛的应用:随着 LLM 在教育、法律、医疗等领域的应用扩大,理解它们对基础语言现象的处理能力变得越来越重要。
- 跨语言差异的启示:先前对土耳其语指示词的研究(Oğuz et al., 2024)显示 LLM 表现极差,但英语中是否如此尚不清楚,且两种语言的指示词具有不同的语法属性。
方法详解¶
数据集构建:English Indexical Dataset¶
- 规模:1600 个多选题,涵盖 4 种指示词 × 每种 400 样本
- 4 种指示词:I(第一人称)、you(第二人称)、here(地点)、tomorrow(时间)
- 每种指示词的 4 个条件(2×2 设计):
- 句子类型:引号句(quoted)vs 非引号句(non-quoted)
- 上下文启动:shifted prime(上下文倾向于引述解读)vs non-shifted prime(上下文倾向于字面解读)
- 正确答案规则:非引号句中应选 non-shifted 选项;引号句中应选 shifted 选项(因引号内指示词转移到被引述语境)
- 数据生成:使用 GPT-4o 生成场景和上下文描述,人工验证 25%(400 条)确保语法正确性、引号条件一致性和上下文启动有效性
- 性别平衡:男女名字各 50%,消除潜在性别偏差
评估模型¶
- GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、DeepSeek-V3 共 4 个前沿 LLM
评估方式¶
- 限制模型只能在两个预定义选项(shifted vs non-shifted)中选择
- 分别在 4 个条件下统计准确率
实验关键数据¶
表1:各指示词在不同条件下的模型准确率¶
| 指示词 | 条件 | GPT-4o | Claude 3.5 | Gemini 1.5 | DeepSeek-V3 |
|---|---|---|---|---|---|
| I | 非引号 | ~99% | ~99% | ~99% | ~99% |
| I | 引号 | >94% | 89% | >94% | 17-78%(受context影响大) |
| you | 非引号 | ~70-80% | ~70-80% | 92% | ~70-80% |
| you | 引号 | 显著下降 | 显著下降 | 显著下降 | 显著下降 |
| here | 非引号-shifted prime | >96% | >96% | >96% | >96% |
| here | 非引号-non-shifted prime | <2% | <2% | <2% | <2% |
| here | 引号 | 37% | 64% | 94% | >97% |
| tomorrow | 非引号 | ~94-100% | 100% | 100% | 83% |
| tomorrow | 引号 | 极低 | ~0% | ~0% | 极低 |
表2:关键发现汇总¶
| 发现维度 | 具体结论 |
|---|---|
| I 的理解 | 除 DeepSeek 引号条件外,所有模型接近完美 |
| you 的理解 | 所有模型严重受上下文启动影响,引号反而降低准确率 |
| here 的理解 | 非引号下完全依赖上下文(非语法),引号反而帮助提升 |
| tomorrow 的理解 | 强烈偏向 non-shifted 解读,引号条件下准确率接近 0 |
| 引号效应 | here 上有正面效应,you 和 tomorrow 上有负面效应 |
亮点¶
- 首创性强:首个系统评估 LLM 英语指示词理解的研究,填补了语言学-NLP 交叉领域的重要空白
- 实验设计精巧:2×2 因素设计(句子类型 × 上下文启动)精准区分了语法规则遵循 vs 上下文依赖
- 揭示深层问题:LLM 倾向于用上下文语义"猜测"答案,而非遵循指示词的语法规则——这说明 LLM 的语言能力更像统计关联而非真正的语法理解
- 跨语言对比视角:与土耳其语研究对比,揭示了语言资源量和语言类型学特征对 LLM 表现的影响
局限性 / 可改进方向¶
- 黑盒评估:仅从外部行为评估,未分析模型内部表示或注意力机制,无法解释 LLM 为何犯错
- 仅评估英语:指示词在不同语言中有不同的语法属性(如土耳其语允许无引号转移),跨语言泛化需进一步研究
- 数据集规模有限:每种条件仅 100 个基础句子,可能不足以捕捉所有边界情况
- 缺乏改进方案:论文仅诊断问题未提出解决方案,如针对性的 prompt 工程或微调策略
- 模型版本时效性:评估的模型版本可能已更新,新版本表现可能不同
- 未覆盖更多指示词:英语中还有 now、this、that 等指示词未纳入评估
- GPT-4o 生成数据的潜在偏差:使用被评估模型之一生成测试数据,可能引入系统性偏差
- 缺少统计检验:各模型间和条件间的差异未报告显著性检验结果
与相关工作的对比¶
vs Oğuz et al. (2024)(土耳其语指示词研究)¶
同一研究组的先前工作评估了 LLM 对土耳其语第一人称指示词 ben("I")的理解,发现表现极差。本文发现英语 I 的理解则接近人类水平。作者分析差异可能源于:(1) 训练数据中英语资源远多于土耳其语;(2) 土耳其语是 pro-drop 语言(代词可省略),测试中使用了省略形式增加了难度。
vs 传统共指消解研究(Gan et al., 2024; Le & Ritter, 2023)¶
传统研究聚焦于第三人称代词和名词的共指消解,这些情况下上下文信息是消歧的关键线索。本文揭示了指示词的独特挑战:模型需要忽略而非利用上下文信息,这与传统共指消解恰好相反,暴露了 LLM 过度依赖统计关联的问题。
vs MARS / LARS(Bakman et al., 2024; Yaldiz et al., 2024)¶
同一研究组成员此前在 LLM 不确定性评分方面有工作,本文转向评估 LLM 的基础语言理解能力。两条研究线互补:不确定性估计关注"模型知不知道自己不知道",而本文关注"模型能否遵循语法规则而非走捷径"。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首个英语指示词 LLM 理解评估,选题独特且有理论深度
- 实验充分度: ⭐⭐⭐ — 4 个模型 × 4 种指示词 × 4 个条件,但缺少开源模型和改进实验
- 写作质量: ⭐⭐⭐⭐ — 语言学背景介绍清晰,实验设计和结果讨论逻辑严密
- 价值: ⭐⭐⭐⭐ — 揭示了 LLM 语言理解的深层缺陷,对理解和改进 LLM 语用能力有重要启示