跳转至

Can Large Language Models Understand Internet Buzzwords Through User-Generated Content

会议: ACL 2025
arXiv: 2505.15071
代码: https://github.com/SCUNLP/Buzzword
领域: 文本生成
关键词: 网络流行语, 定义生成, 用户内容, 中文NLP, LLM理解

一句话总结

研究 LLM 能否通过用户生成内容(UGC)理解中文网络流行语——构建首个中文网络流行语数据集 Cheer(含定义和相关UGC),提出 Ress 方法引导 LLM 模拟人类语言学习过程来生成流行语定义,揭示了 LLM 在流行语理解上的三大共性挑战。

研究背景与动机

  1. 领域现状:网络流行语在中文社交媒体上大量涌现(如"内卷"、"摆烂"、"YYDS"),但 LLM 在理解这些新词上能力有限。
  2. 现有痛点:(a) 缺乏网络流行语的标注数据集——没有ground truth定义和使用示例;(b) LLM 的训练数据滞后于流行语的产生速度;(c) 流行语常常改变已有词的含义或创造全新词汇,LLM 的先验知识可能误导理解。
  3. 核心矛盾:流行语的含义需要从社交媒体语境中推断,但 LLM 倾向于使用预训练中学到的常规含义。
  4. 本文要解决什么? 让 LLM 从 UGC 示例中学习流行语的真正含义并生成准确定义。
  5. 切入角度:模拟人类学习新词的过程——通过阅读使用该词的多个例句,推断词义。
  6. 核心idea一句话:用 UGC 作为"例句"教 LLM 理解流行语,模拟人类的词义推断过程。

方法详解

整体框架

(1) 构建 Cheer 数据集——收集中文网络流行语+人工标注定义+收集相关UGC;(2) 提出 Ress 方法——引导 LLM 通过多步推理从 UGC 中推断流行语含义;(3) 系统对比多种定义生成方法在 Cheer 上的表现。

关键设计

  1. Cheer 数据集:
  2. 做什么:首个中文网络流行语定义生成基准
  3. 核心内容:每个流行语配有一个人工标注的精确定义 + 多条包含该流行语的社交媒体帖子(UGC)
  4. 设计动机:为流行语理解研究提供标准化的训练和评估资源

  5. Ress (Reasoning with Social Signals):

  6. 做什么:引导 LLM 从 UGC 中准确推断流行语含义
  7. 核心思路:三步推理——(a) 分析每条 UGC 中流行语的使用上下文;(b) 比较不同 UGC 中的共同语义模式;(c) 综合推断流行语的核心含义和使用条件。模拟人类"从多个例句学习新词"的认知过程
  8. 设计动机:直接问 LLM "XX是什么意思"会得到错误的预训练答案;Ress 强制 LLM 从给定 UGC 出发推理

  9. UGC 质量筛选:

  10. 做什么:从大量 UGC 中选择最有利于定义生成的示例
  11. 设计动机:不是所有 UGC 都能清晰展示流行语的含义——有些用法模糊或讽刺

损失函数 / 训练策略

  • 无需训练——Ress 是提示工程方法
  • 对比多种定义生成方法(直接提示/ICL/CoT/Ress)
  • 自动+人工评估

实验关键数据

主实验

方法 定义准确度(↑) 说明
直接提示 LLM 依赖预训练知识,常过时或错误
ICL (few-shot) 示例帮助有限
CoT 推理 中高 推理帮助但方向不够精确
Ress 最高 从 UGC 出发的结构化推理

三大共性挑战

  1. 过度依赖先验知识——LLM 倾向于使用预训练中学到的常规含义,忽略 UGC 上下文
  2. 推理能力不足——从多条 UGC 中归纳共同语义模式的能力有限
  3. 高质量 UGC 识别困难——不能区分清晰示例和模糊/讽刺用法

关键发现

  • 流行语理解是 LLM 的真正短板——即使是 GPT-4 也频繁给出错误定义
  • UGC 质量是关键瓶颈——好的示例能显著提升定义准确度
  • 中文流行语比英语更具挑战——因为中文网络语言更具创造力和文化特殊性
  • Ress 的结构化推理有效但仍有改进空间

亮点与洞察

  • "从UGC学新词"模拟人类认知过程——语言学上,人类确实通过语境推断新词含义。
  • Cheer 数据集填补了中文网络流行语 NLP 研究的空白。
  • 三大共性挑战对 LLM 的语言理解研究有普遍启示——不仅适用于流行语。
  • 该方法可扩展到其他"新词/术语"的定义生成场景(如专业术语、方言用语)。

局限性 / 可改进方向

  • 仅覆盖中文流行语——英语/日语等其他语言的网络用语未涉及
  • UGC 获取依赖社交媒体平台的可访问性
  • 定义评估有一定主观性

相关工作与启发

  • vs UrbanDictionary 方法: UrbanDictionary 依赖用户投票的定义;Cheer 提供精确标注+UGC
  • vs 词义消歧: 传统 WSD 处理已知词的多义;本文处理全新词的含义推断
  • 对实时知识更新的 LLM 系统有参考价值——流行语是知识快速变化的典型场景

评分

  • 新颖性: ⭐⭐⭐⭐ 首个中文流行语理解基准,Ress方法有认知启发
  • 实验充分度: ⭐⭐⭐⭐ 多方法对比+挑战分析+人工评估
  • 写作质量: ⭐⭐⭐⭐ 研究设计清晰
  • 价值: ⭐⭐⭐⭐ 对中文NLP和网络语言研究有价值