Can Large Language Models Understand Internet Buzzwords Through User-Generated Content¶
会议: ACL 2025
arXiv: 2505.15071
代码: https://github.com/SCUNLP/Buzzword
领域: 文本生成
关键词: 网络流行语, 定义生成, 用户内容, 中文NLP, LLM理解
一句话总结¶
研究 LLM 能否通过用户生成内容(UGC)理解中文网络流行语——构建首个中文网络流行语数据集 Cheer(含定义和相关UGC),提出 Ress 方法引导 LLM 模拟人类语言学习过程来生成流行语定义,揭示了 LLM 在流行语理解上的三大共性挑战。
研究背景与动机¶
- 领域现状:网络流行语在中文社交媒体上大量涌现(如"内卷"、"摆烂"、"YYDS"),但 LLM 在理解这些新词上能力有限。
- 现有痛点:(a) 缺乏网络流行语的标注数据集——没有ground truth定义和使用示例;(b) LLM 的训练数据滞后于流行语的产生速度;(c) 流行语常常改变已有词的含义或创造全新词汇,LLM 的先验知识可能误导理解。
- 核心矛盾:流行语的含义需要从社交媒体语境中推断,但 LLM 倾向于使用预训练中学到的常规含义。
- 本文要解决什么? 让 LLM 从 UGC 示例中学习流行语的真正含义并生成准确定义。
- 切入角度:模拟人类学习新词的过程——通过阅读使用该词的多个例句,推断词义。
- 核心idea一句话:用 UGC 作为"例句"教 LLM 理解流行语,模拟人类的词义推断过程。
方法详解¶
整体框架¶
(1) 构建 Cheer 数据集——收集中文网络流行语+人工标注定义+收集相关UGC;(2) 提出 Ress 方法——引导 LLM 通过多步推理从 UGC 中推断流行语含义;(3) 系统对比多种定义生成方法在 Cheer 上的表现。
关键设计¶
- Cheer 数据集:
- 做什么:首个中文网络流行语定义生成基准
- 核心内容:每个流行语配有一个人工标注的精确定义 + 多条包含该流行语的社交媒体帖子(UGC)
-
设计动机:为流行语理解研究提供标准化的训练和评估资源
-
Ress (Reasoning with Social Signals):
- 做什么:引导 LLM 从 UGC 中准确推断流行语含义
- 核心思路:三步推理——(a) 分析每条 UGC 中流行语的使用上下文;(b) 比较不同 UGC 中的共同语义模式;(c) 综合推断流行语的核心含义和使用条件。模拟人类"从多个例句学习新词"的认知过程
-
设计动机:直接问 LLM "XX是什么意思"会得到错误的预训练答案;Ress 强制 LLM 从给定 UGC 出发推理
-
UGC 质量筛选:
- 做什么:从大量 UGC 中选择最有利于定义生成的示例
- 设计动机:不是所有 UGC 都能清晰展示流行语的含义——有些用法模糊或讽刺
损失函数 / 训练策略¶
- 无需训练——Ress 是提示工程方法
- 对比多种定义生成方法(直接提示/ICL/CoT/Ress)
- 自动+人工评估
实验关键数据¶
主实验¶
| 方法 | 定义准确度(↑) | 说明 |
|---|---|---|
| 直接提示 LLM | 低 | 依赖预训练知识,常过时或错误 |
| ICL (few-shot) | 中 | 示例帮助有限 |
| CoT 推理 | 中高 | 推理帮助但方向不够精确 |
| Ress | 最高 | 从 UGC 出发的结构化推理 |
三大共性挑战¶
- 过度依赖先验知识——LLM 倾向于使用预训练中学到的常规含义,忽略 UGC 上下文
- 推理能力不足——从多条 UGC 中归纳共同语义模式的能力有限
- 高质量 UGC 识别困难——不能区分清晰示例和模糊/讽刺用法
关键发现¶
- 流行语理解是 LLM 的真正短板——即使是 GPT-4 也频繁给出错误定义
- UGC 质量是关键瓶颈——好的示例能显著提升定义准确度
- 中文流行语比英语更具挑战——因为中文网络语言更具创造力和文化特殊性
- Ress 的结构化推理有效但仍有改进空间
亮点与洞察¶
- "从UGC学新词"模拟人类认知过程——语言学上,人类确实通过语境推断新词含义。
- Cheer 数据集填补了中文网络流行语 NLP 研究的空白。
- 三大共性挑战对 LLM 的语言理解研究有普遍启示——不仅适用于流行语。
- 该方法可扩展到其他"新词/术语"的定义生成场景(如专业术语、方言用语)。
局限性 / 可改进方向¶
- 仅覆盖中文流行语——英语/日语等其他语言的网络用语未涉及
- UGC 获取依赖社交媒体平台的可访问性
- 定义评估有一定主观性
相关工作与启发¶
- vs UrbanDictionary 方法: UrbanDictionary 依赖用户投票的定义;Cheer 提供精确标注+UGC
- vs 词义消歧: 传统 WSD 处理已知词的多义;本文处理全新词的含义推断
- 对实时知识更新的 LLM 系统有参考价值——流行语是知识快速变化的典型场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个中文流行语理解基准,Ress方法有认知启发
- 实验充分度: ⭐⭐⭐⭐ 多方法对比+挑战分析+人工评估
- 写作质量: ⭐⭐⭐⭐ 研究设计清晰
- 价值: ⭐⭐⭐⭐ 对中文NLP和网络语言研究有价值