跳转至

Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context

会议: ACL 2025
arXiv: 2410.16069
领域: NLP 理解
关键词: 习语理解, 对比评估, 上下文推理, 习语消歧, LLM局限性

一句话总结

提出 DICE 数据集,通过严格控制习语表面形式不变而仅改变上下文,揭示 LLM 在习语消歧任务上的高准确率很大程度来自对表面线索的依赖而非真正的上下文理解,并发现句子概率和搭配频率对模型表现有复杂影响。

研究背景与动机

习语(如"kick the bucket"→死亡)是自然语言理解的核心挑战。LLM 在现有习语检测基准上已取得很高准确率,但这种成功可能源于数据集中的推理捷径。

现有数据集的两个根本缺陷: 1. 字面用法通常涉及形式变化:如被动化("The bucket was kicked")或修饰("kicked the tin bucket"),这些句法变化本身就破坏了习语性,让模型可以利用表面形式差异而非理解上下文来判断 2. 表达形式不一致:字面义和比喻义使用的表达形式不同,模型可利用词汇差异作为捷标

核心问题:如果去除所有表面线索,仅依赖上下文,LLM 还能准确消歧吗?

方法详解

整体框架

DICE(Dataset for Idiomatic Contrastive Evaluation)构建流程:

  1. 表达选取:从 MAGPIE 和 SLIDE 中提取短语习语,从 NCTTI 和 AStitch 中提取名词复合习语,取交集得到 783 个独特表达
  2. 字面义句子生成:用 GPT-4 生成每个习语在字面语境中的句子,严格保持表达形式不变
  3. 专家标注:4 名语言学专家审查每个句子,标注是否成功抑制了比喻义(Cohen's kappa = 0.95)
  4. 比喻义句子配对:从 MAGPIE 和 AStitch 中抽取相同数量的比喻义句子,确保每个表达在两种语境下数量匹配

最终数据集:2,066 个句子,402 个表达,字面/比喻各 1,033 个。

关键设计

  • 形式控制:同一习语在字面和比喻语境中保持完全相同的表面形式,消除所有词汇/句法捷径
  • 对比范式:如果模型不依赖记忆,应在两种语义下表现相当
  • 多模型评估:13 个模型 × 3 种 prompt 变体,报告均值和标准差
  • 三层评估指标
  • 准确率(分 figurative/literal)
  • 宽松一致性(Lenient Consistency):同一表达在至少一种 prompt 下两种语境都能答对
  • 严格一致性(Strict Consistency):同一表达在所有 prompt 下两种语境都能答对
  • 频率和概率分析:考察搭配频率和句子似然度对模型表现的影响

实验关键数据

主实验

零样本设置下的核心结果:

模型 比喻准确率 字面准确率 总体准确率 严格一致性(Both)
GPT-4o 87.05 87.30 84.33 48.59
Llama 3.1 (405B) 88.63 88.25 88.45 60.36
Llama 3 (70B) 87.72 86.13 87.00 57.55
Llama 3 (8B) 79.27 74.01 76.91 33.83
GPT-3.5 Turbo 79.05 70.02 75.54 32.84
Flan-T5-XXL (11B) 77.18 74.91 76.40 32.92
Flan-T5-Small (80M) 0.51 66.72 50.13 0.00
Llama 2 (7B) 55.51 31.97 51.34 1.66

关键发现

  1. 准确率高但一致性极低:即使最强的 Llama 3.1 405B 在总体准确率达 88.45% 的情况下,严格一致性仅 60.36%。这意味着近 40% 的表达在不同 prompt 下给出矛盾判断
  2. 字面义显著更难:几乎所有模型的字面准确率低于比喻准确率(如 Llama 3 8B: 74.01 vs 79.27),说明模型存在"比喻偏好"——倾向于将表达判断为比喻义
  3. 小模型完全崩溃:Flan-T5-Small 的比喻准确率仅 0.51%(几乎全部预测为字面义),严格一致性 0%
  4. 频率不是"免费午餐":高频习语虽更可能被正确消歧,但在字面和比喻设置之间存在性能权衡——高频习语的字面义判断反而更差
  5. 句子概率与表现强相关:模型认为更可能的句子,其习语消歧表现也更好

亮点与洞察

  • 实验设计堪称精巧:通过固定表达形式仅改变上下文,完美隔离了"上下文理解"这一能力
  • 一致性指标的重要性:仅看准确率会严重高估模型能力,一致性指标揭示了模型的脆弱性
  • 对 LLM 评估的警示:许多 NLU 基准上的高分可能来自表面线索而非深层理解
  • 频率-表现的复杂关系:打破了"更常见就更容易"的简单直觉,揭示了记忆与推理之间的微妙张力
  • 人类标注质量极高:Cohen's kappa 0.95,确保数据集本身的可靠性

局限性

  • 仅覆盖英语习语,其他语言的习语特性可能不同
  • 字面义句子由 GPT-4 生成,可能引入分布偏差
  • 比喻义句子来自现有数据集(平均 28.1 词),字面义句子较短(平均 15.4 词),长度差异可能成为额外线索
  • 二分类(literal/figurative)设置过于简化,实际中存在程度渐变
  • 未评估多语言模型或 instruction-following 变体在此任务上的深入表现

相关工作

  • 习语检测数据集:MAGPIE (Haagsma et al. 2020, 56K 实例)、VNC-Tokens (Cook et al. 2008)、IdioTS (De Luca Fornaciari et al. 2024)
  • LLM 与习语:Phelps et al. 2024 评估 LLM 习语知识;Cheng & Bhat 2024 发现去除上下文反而可能提升表现
  • 对比评估范式:Linzen et al. 2016、Sennrich 2017 的最小对比方法论
  • 记忆 vs 推理:Li et al. 2022 发现 GPT-3 对新颖组合表现下降;Coil & Shwartz 2023 证实模型依赖预存知识

评分

维度 分数
新颖性 ⭐⭐⭐⭐⭐
技术深度 ⭐⭐⭐⭐
实验充分性 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐⭐
实用影响 ⭐⭐⭐⭐
综合评分 8.5/10