Pragmatics in the Era of Large Language Models: A Survey on Datasets, Evaluation, Opportunities and Challenges¶

会议: ACL 2025
arXiv: 2502.12378
代码: 无
领域: LLM NLP
关键词: 语用学, 综述, 隐含义, 指称, 评估基准

一句话总结¶

全面梳理用于评估 NLP 系统语用能力的资源——按语用现象（隐含义、指称、言语行为、会话含义、预设等）分类数据集，分析任务设计、数据收集方法和评估方式，揭示了现代 LLM 在处理语境相关语言使用上的趋势、挑战和空白。

领域现状：语用学研究语言在上下文中的使用——包括隐含义（implicature）、指称（reference）、言语行为（speech acts）、预设（presupposition）等。LLM 在表面语言能力上表现出色，但语用理解仍是挑战。
现有痛点：(a) 评估 LLM 语用能力的基准分散在不同研究中，缺乏系统梳理；(b) 不同语用现象的评估资源发展不均——某些现象（如隐含义）研究较多，其他（如预设）关注不足；(c) 现有评估可能不反映真实世界的语用需求。
核心矛盾：LLM 在标准 NLP 基准上的表现可能掩盖了其在语用理解上的不足——需要专门的语用评估来揭示这些弱点。
本文要解决什么？ 构建语用 NLP 评估资源的全景图，指导更好的语用基准开发。
切入角度：按语用现象分类（而非按任务分类），涵盖数据集、评估方法和 LLM 适用性。
核心idea一句话：语用能力是 NLP 中最被低估的维度——需要更多针对性的评估资源。

综述组织为四大部分：(1) 语用现象分类——隐含义/指称/言语行为/会话含义/非字面语言/预设/礼貌等；(2) 数据集分析——每种现象有哪些评估数据集、如何构建；(3) 评估方法——任务设计、指标选择；(4) LLM 表现——现代 LLM 在各语用任务上的表现和差距。

语用现象	数据集数量	LLM 表现	说明
隐含义	10+	中	研究较多但仍有差距
指称	5+	中高	代词消解较好但指称博弈差
言语行为	5+	中	检测好但生成差
讽刺/反讽	8+	中	资源丰富但跨文化差
会话含义	3	低	严重不足
预设	2	低	最被忽视