Pragmatics in the Era of Large Language Models: A Survey on Datasets, Evaluation, Opportunities and Challenges¶
会议: ACL 2025
arXiv: 2502.12378
代码: 无
领域: LLM NLP
关键词: 语用学, 综述, 隐含义, 指称, 评估基准
一句话总结¶
全面梳理用于评估 NLP 系统语用能力的资源——按语用现象(隐含义、指称、言语行为、会话含义、预设等)分类数据集,分析任务设计、数据收集方法和评估方式,揭示了现代 LLM 在处理语境相关语言使用上的趋势、挑战和空白。
研究背景与动机¶
- 领域现状:语用学研究语言在上下文中的使用——包括隐含义(implicature)、指称(reference)、言语行为(speech acts)、预设(presupposition)等。LLM 在表面语言能力上表现出色,但语用理解仍是挑战。
- 现有痛点:(a) 评估 LLM 语用能力的基准分散在不同研究中,缺乏系统梳理;(b) 不同语用现象的评估资源发展不均——某些现象(如隐含义)研究较多,其他(如预设)关注不足;(c) 现有评估可能不反映真实世界的语用需求。
- 核心矛盾:LLM 在标准 NLP 基准上的表现可能掩盖了其在语用理解上的不足——需要专门的语用评估来揭示这些弱点。
- 本文要解决什么? 构建语用 NLP 评估资源的全景图,指导更好的语用基准开发。
- 切入角度:按语用现象分类(而非按任务分类),涵盖数据集、评估方法和 LLM 适用性。
- 核心idea一句话:语用能力是 NLP 中最被低估的维度——需要更多针对性的评估资源。
方法详解¶
整体框架¶
综述组织为四大部分:(1) 语用现象分类——隐含义/指称/言语行为/会话含义/非字面语言/预设/礼貌等;(2) 数据集分析——每种现象有哪些评估数据集、如何构建;(3) 评估方法——任务设计、指标选择;(4) LLM 表现——现代 LLM 在各语用任务上的表现和差距。
关键设计¶
- 按语用现象分类的系统化框架:
- 涵盖10+种语用现象的评估资源
- 每种现象记录:可用数据集、任务类型、语言覆盖、LLM 基准结果
-
发现:隐含义和讽刺检测资源最丰富,预设和会话含义资源最匮乏
-
评估方法分析:
- 分类:判别式(分类/选择题)vs 生成式(自由回答)
- 发现:大多数现有基准是判别式的——可能高估 LLM 的语用能力
-
建议:需要更多生成式和交互式的语用评估
-
LLM 表现概览:
- 发现:LLM 在直接语用任务(如讽刺检测)上表现中等
- 发现:在需要深度语境推理的任务(如会话含义推断)上表现差
- 发现:规模增加不一定改善语用能力——语用理解可能需要专门的训练信号
损失函数 / 训练策略¶
- 纯综述——无训练组件
- 涵盖数十个数据集和多个 LLM 的评估结果
实验关键数据¶
主要发现¶
| 语用现象 | 数据集数量 | LLM 表现 | 说明 |
|---|---|---|---|
| 隐含义 | 10+ | 中 | 研究较多但仍有差距 |
| 指称 | 5+ | 中高 | 代词消解较好但指称博弈差 |
| 言语行为 | 5+ | 中 | 检测好但生成差 |
| 讽刺/反讽 | 8+ | 中 | 资源丰富但跨文化差 |
| 会话含义 | 3 | 低 | 严重不足 |
| 预设 | 2 | 低 | 最被忽视 |
关键发现¶
- 语用评估资源严重偏向英语——非英语语用研究需求巨大
- 判别式评估可能高估 LLM 语用能力——选择题和真实语用不同
- 模型规模不是语用能力的充分条件——需要语用特定的训练
- 交互式语用评估几乎空白——真实对话中的语用更复杂
亮点与洞察¶
- 首次按语用现象系统化分类 NLP 评估资源——为语用 NLP 研究提供了路线图。
- "预设和会话含义被严重忽视"的发现指出了重要的研究空白。
- "模型更大不等于语用更好"的观察挑战了常见假设。
- 对开发下一代更语境感知的 NLP 系统有指导价值。
局限性 / 可改进方向¶
- 综述的覆盖面可能遗漏某些小众语用研究
- 持续更新的需求——新数据集和新模型不断出现
- 未提供统一的语用评估平台
相关工作与启发¶
- vs 一般 NLP 综述: 聚焦语用维度是独特贡献
- vs CommonsenseQA/SocialIQA: 这些基准间接涉及语用但不专门评估
- 对 LLM 在真实对话系统中的应用有重要警示
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次按语用现象系统化分类
- 实验充分度: ⭐⭐⭐⭐ 涵盖数十个数据集和多个模型
- 写作质量: ⭐⭐⭐⭐⭐ 组织清晰,分类实用
- 价值: ⭐⭐⭐⭐⭐ 对语用 NLP 社区有重要参考价值