跳转至

Pragmatics in the Era of Large Language Models: A Survey on Datasets, Evaluation, Opportunities and Challenges

会议: ACL 2025
arXiv: 2502.12378
代码: 无
领域: LLM NLP
关键词: 语用学, 综述, 隐含义, 指称, 评估基准

一句话总结

全面梳理用于评估 NLP 系统语用能力的资源——按语用现象(隐含义、指称、言语行为、会话含义、预设等)分类数据集,分析任务设计、数据收集方法和评估方式,揭示了现代 LLM 在处理语境相关语言使用上的趋势、挑战和空白。

研究背景与动机

  1. 领域现状:语用学研究语言在上下文中的使用——包括隐含义(implicature)、指称(reference)、言语行为(speech acts)、预设(presupposition)等。LLM 在表面语言能力上表现出色,但语用理解仍是挑战。
  2. 现有痛点:(a) 评估 LLM 语用能力的基准分散在不同研究中,缺乏系统梳理;(b) 不同语用现象的评估资源发展不均——某些现象(如隐含义)研究较多,其他(如预设)关注不足;(c) 现有评估可能不反映真实世界的语用需求。
  3. 核心矛盾:LLM 在标准 NLP 基准上的表现可能掩盖了其在语用理解上的不足——需要专门的语用评估来揭示这些弱点。
  4. 本文要解决什么? 构建语用 NLP 评估资源的全景图,指导更好的语用基准开发。
  5. 切入角度:按语用现象分类(而非按任务分类),涵盖数据集、评估方法和 LLM 适用性。
  6. 核心idea一句话:语用能力是 NLP 中最被低估的维度——需要更多针对性的评估资源。

方法详解

整体框架

综述组织为四大部分:(1) 语用现象分类——隐含义/指称/言语行为/会话含义/非字面语言/预设/礼貌等;(2) 数据集分析——每种现象有哪些评估数据集、如何构建;(3) 评估方法——任务设计、指标选择;(4) LLM 表现——现代 LLM 在各语用任务上的表现和差距。

关键设计

  1. 按语用现象分类的系统化框架:
  2. 涵盖10+种语用现象的评估资源
  3. 每种现象记录:可用数据集、任务类型、语言覆盖、LLM 基准结果
  4. 发现:隐含义和讽刺检测资源最丰富,预设和会话含义资源最匮乏

  5. 评估方法分析:

  6. 分类:判别式(分类/选择题)vs 生成式(自由回答)
  7. 发现:大多数现有基准是判别式的——可能高估 LLM 的语用能力
  8. 建议:需要更多生成式和交互式的语用评估

  9. LLM 表现概览:

  10. 发现:LLM 在直接语用任务(如讽刺检测)上表现中等
  11. 发现:在需要深度语境推理的任务(如会话含义推断)上表现差
  12. 发现:规模增加不一定改善语用能力——语用理解可能需要专门的训练信号

损失函数 / 训练策略

  • 纯综述——无训练组件
  • 涵盖数十个数据集和多个 LLM 的评估结果

实验关键数据

主要发现

语用现象 数据集数量 LLM 表现 说明
隐含义 10+ 研究较多但仍有差距
指称 5+ 中高 代词消解较好但指称博弈差
言语行为 5+ 检测好但生成差
讽刺/反讽 8+ 资源丰富但跨文化差
会话含义 3 严重不足
预设 2 最被忽视

关键发现

  • 语用评估资源严重偏向英语——非英语语用研究需求巨大
  • 判别式评估可能高估 LLM 语用能力——选择题和真实语用不同
  • 模型规模不是语用能力的充分条件——需要语用特定的训练
  • 交互式语用评估几乎空白——真实对话中的语用更复杂

亮点与洞察

  • 首次按语用现象系统化分类 NLP 评估资源——为语用 NLP 研究提供了路线图。
  • "预设和会话含义被严重忽视"的发现指出了重要的研究空白。
  • "模型更大不等于语用更好"的观察挑战了常见假设。
  • 对开发下一代更语境感知的 NLP 系统有指导价值。

局限性 / 可改进方向

  • 综述的覆盖面可能遗漏某些小众语用研究
  • 持续更新的需求——新数据集和新模型不断出现
  • 未提供统一的语用评估平台

相关工作与启发

  • vs 一般 NLP 综述: 聚焦语用维度是独特贡献
  • vs CommonsenseQA/SocialIQA: 这些基准间接涉及语用但不专门评估
  • 对 LLM 在真实对话系统中的应用有重要警示

评分

  • 新颖性: ⭐⭐⭐⭐ 首次按语用现象系统化分类
  • 实验充分度: ⭐⭐⭐⭐ 涵盖数十个数据集和多个模型
  • 写作质量: ⭐⭐⭐⭐⭐ 组织清晰,分类实用
  • 价值: ⭐⭐⭐⭐⭐ 对语用 NLP 社区有重要参考价值