SLAyiNG: Towards Queer Language Processing¶
会议: NeurIPS 2025 (Queer in AI Workshop) arXiv: 2509.17449 代码: 无 领域: NLP理解 关键词: queer slang, 数据集标注, sense disambiguation, LLM评估, 社会语言学
一句话总结¶
构建了首个显式标注的酷儿俚语(queer slang)数据集 SLAyiNG,包含 695 个术语和近 20 万条使用实例,并通过人机标注一致性实验(Krippendorff's α=0.746)表明推理模型可用于预筛选但仍需社区驱动的专家标注。
研究背景与动机¶
- 领域现状:LLM 在用户交互中对俚语的理解能力很重要,现有工作已建立了通用俚语检测和识别的 benchmark(如 Mei et al. 2024、Sun et al. 2024),但尚未专门关注酷儿俚语。
- 现有痛点:酷儿俚语在 LLM 预训练数据中代表性严重不足,导致两个具体问题:(1) 酷儿俚语常被错误标记为仇恨言论(如 "cunt" 在酷儿语境下是褒义形容词);(2) 包含酷儿俚语的 prompt 会引发 LLM 更负面的回应。
- 核心矛盾:缺乏高质量的标注基准数据集,使得酷儿俚语的检测和处理无法被系统评估。很多术语(如 "mother"、"read")有非酷儿含义,sense disambiguation 是最大的标注挑战。
- 本文要解决什么? (1) 构建首个显式包含酷儿俚语的标注数据集;(2) 评估 SOTA 推理模型作为标注工具的可行性和局限性。
- 切入角度:从酷儿语言学出发,整合多源在线资源(本体、维基词典、术语表),收集真实使用实例并设计多阶段人机协作标注流程。
- 核心idea一句话:用多源爬取+LLM预筛选+社区标注的流水线,构建首个酷儿俚语 sense disambiguation 数据集。
方法详解¶
整体框架¶
整个工作围绕 SLAyiNG 数据集的构建展开,分为三个阶段:术语收集 → 原始数据集爬取 → 预筛选与标注。输入是多个在线酷儿语言资源,输出是经过 sense disambiguation、有害内容检测和作者身份标注的清洁数据集。
关键设计¶
- 多源术语收集与去重:
- 做什么:从 GSSO 本体(414 词)、lgbtDB(215 词)、Chew 术语表(65 词)和 Wiktionary(251 词)收集酷儿俚语术语,共 695 个术语 + 90 个变体
- 核心思路:用 all-mpnet-base-v2 对所有定义进行嵌入,计算余弦相似度矩阵,相似度 > 0.7 的冗余定义只保留较长(更详细)的那个
-
设计动机:同一术语在不同来源中可能有冗余定义(如 "bear"),但也可能有确实不同的含义(如 "angel" 在 ballroom 文化中有特定含义),需要在去重的同时保留有效的多义区分
-
三源原始数据集构建:
- 做什么:从 Reddit(58%,114K 条)、播客(35%,70K 条)和 OpenSubtitles 字幕(7%,13K 条)收集包含目标术语的句子,共 197,958 条
- 核心思路:Reddit 从 264 个 LGBTQ+ 相关 subreddit 中每词检索最多 15 条相关帖子;播客从 Podscripts 的 Society & Culture 类别(113 个播客)检索;字幕从 IMDb 酷儿相关影视列表对应的 OpenSubtitles 提取。所有句子保留 4-30 个 token 的长度范围
-
设计动机:多源设计确保覆盖不同使用语境(在线社区、口语媒体、影视对话),提高数据集的现实代表性
-
LLM 辅助预筛选 + 多阶段标注流水线:
- 做什么:用 o3-mini 作为预筛选工具,结合人工标注完成三项任务——sense disambiguation、有害内容检测、作者群体隶属判断
- 核心思路:五阶段流水线:(1) 3 名标注者标注 25 条样本建立基线一致性;(2) 各标注者标注约 2200 条,与 o3-mini 计算一致性;(3) 高一致性术语全量用 o3-mini 标注,低一致性术语用更强的 o3 重标;(4) 迭代人工标注 + 周期性一致性检查;(5) 招募酷儿社区成员验证
- 设计动机:原始数据集近 20 万条,纯人工标注不可行;但 LLM 对特定俚语(如 "anticistamines")完全无法识别,42.52% 的术语一致性低,因此不能完全依赖 LLM
标注方案¶
- 采用 WSsim 任务设计,标注者对每个词义在 1-5 Likert 量表上评分
- Sense disambiguation 是核心任务,因为大多数爬取实例都是 false positive(术语的非酷儿含义使用)
实验关键数据¶
人机标注一致性¶
| 评估指标 | AA 间(25条) | AA1-LLMA(250条) | AA2-LLMA(250条) | AA3-LLMA(250条) | 平均 |
|---|---|---|---|---|---|
| Krippendorff's α | 0.877 | 0.750 | 0.769 | 0.719 | 0.746 |
| 95% CI | [0.727, 0.959] | [0.675, 0.821] | [0.689, 0.840] | [0.643, 0.791] | - |
术语级分析¶
| 配置 | 比例 | 说明 |
|---|---|---|
| α > 0.6 或 F1 > 0.8 | 57.48% | o3-mini 能可靠标注的术语 |
| 低一致性术语 | 42.52% | 仍需人工标注 |
关键发现¶
- o3-mini 对新造词(如 "anticistamines" = anti-cis + antihistamines)完全失败(α = -0.833),因为训练数据中没有
- 对歧义性高的术语(如 "cunt" 在酷儿语境中是褒义形容词 vs 一般侮辱性名词),o3-mini 判断不稳定(α = 0.0)
- 人类标注者之间一致性很高(α = 0.877),说明标注任务本身是可行的
亮点与洞察¶
- 多源数据策略的实用性:从本体、词典、社交媒体、播客、字幕多渠道收集,比单一来源更能反映真实使用分布,这种策略可迁移到其他亚文化语言资源构建
- LLM 作为标注工具的细粒度评估:不是简单说"LLM 能/不能标注",而是精确到每个术语级别评估一致性,为混合标注流水线提供了量化依据
- 语义去重方法:用句嵌入 + 余弦相似度自动合并冗余定义同时保留多义性,简单有效
局限性 / 可改进方向¶
- 仅覆盖英语:酷儿俚语跨语言差异巨大,且英语酷儿俚语本身受其他语言影响
- 数据集尚未完成:论文描述的是进行中的工作,完整标注版本尚未发布
- 术语时效性:俚语快速演变,数据集只是 2025 年 7 月的快照
- 未评估下游任务效果:没有展示用 SLAyiNG 训练后的模型在仇恨言论检测、对话系统等下游任务上的改进
相关工作与启发¶
- vs Sun et al. (2024) 通用俚语 benchmark: SLAyiNG 专注酷儿子群体,需要处理特定的 reclamation(词义回收)和 ingroup/outgroup 语境区分
- vs Dorn et al. (2024) 仇恨言论检测: SLAyiNG 提供了区分 ingroup 使用和仇恨使用的标注,可作为改善 content moderation 系统的训练数据
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个酷儿俚语 NLP 数据集,填补了明确的空白
- 实验充分度: ⭐⭐⭐ 仅有初步标注一致性实验,无下游任务验证
- 写作质量: ⭐⭐⭐⭐ 背景知识介绍充分,术语来源和处理过程透明
- 价值: ⭐⭐⭐⭐ 对公平性和包容性 NLP 有实际推动意义,但需等完整数据集发布