Can Large Language Models Understand Internet Buzzwords Through User-Generated Content¶

会议: ACL 2025
arXiv: 2505.15071
代码: https://github.com/SCUNLP/Buzzword
领域: 文本生成
关键词: 网络流行语, 定义生成, 用户内容, 中文NLP, LLM理解

一句话总结¶

研究 LLM 能否通过用户生成内容（UGC）理解中文网络流行语——构建首个中文网络流行语数据集 Cheer（含定义和相关UGC），提出 Ress 方法引导 LLM 模拟人类语言学习过程来生成流行语定义，揭示了 LLM 在流行语理解上的三大共性挑战。

领域现状：网络流行语在中文社交媒体上大量涌现（如"内卷"、"摆烂"、"YYDS"），但 LLM 在理解这些新词上能力有限。
现有痛点：(a) 缺乏网络流行语的标注数据集——没有ground truth定义和使用示例；(b) LLM 的训练数据滞后于流行语的产生速度；(c) 流行语常常改变已有词的含义或创造全新词汇，LLM 的先验知识可能误导理解。
核心矛盾：流行语的含义需要从社交媒体语境中推断，但 LLM 倾向于使用预训练中学到的常规含义。
本文要解决什么？ 让 LLM 从 UGC 示例中学习流行语的真正含义并生成准确定义。
切入角度：模拟人类学习新词的过程——通过阅读使用该词的多个例句，推断词义。
核心idea一句话：用 UGC 作为"例句"教 LLM 理解流行语，模拟人类的词义推断过程。

(1) 构建 Cheer 数据集——收集中文网络流行语+人工标注定义+收集相关UGC；(2) 提出 Ress 方法——引导 LLM 通过多步推理从 UGC 中推断流行语含义；(3) 系统对比多种定义生成方法在 Cheer 上的表现。

Cheer 数据集:
做什么：首个中文网络流行语定义生成基准
核心内容：每个流行语配有一个人工标注的精确定义 + 多条包含该流行语的社交媒体帖子(UGC)
设计动机：为流行语理解研究提供标准化的训练和评估资源
Ress (Reasoning with Social Signals):
做什么：引导 LLM 从 UGC 中准确推断流行语含义
核心思路：三步推理——(a) 分析每条 UGC 中流行语的使用上下文；(b) 比较不同 UGC 中的共同语义模式；(c) 综合推断流行语的核心含义和使用条件。模拟人类"从多个例句学习新词"的认知过程
设计动机：直接问 LLM "XX是什么意思"会得到错误的预训练答案；Ress 强制 LLM 从给定 UGC 出发推理
UGC 质量筛选:
做什么：从大量 UGC 中选择最有利于定义生成的示例
设计动机：不是所有 UGC 都能清晰展示流行语的含义——有些用法模糊或讽刺