SLAyiNG: Towards Queer Language Processing¶

会议: NeurIPS 2025 (Queer in AI Workshop) arXiv: 2509.17449 代码: 无领域: NLP理解 关键词: queer slang, 数据集标注, sense disambiguation, LLM评估, 社会语言学

一句话总结¶

构建了首个显式标注的酷儿俚语（queer slang）数据集 SLAyiNG，包含 695 个术语和近 20 万条使用实例，并通过人机标注一致性实验（Krippendorff's α=0.746）表明推理模型可用于预筛选但仍需社区驱动的专家标注。

研究背景与动机¶

领域现状：LLM 在用户交互中对俚语的理解能力很重要，现有工作已建立了通用俚语检测和识别的 benchmark（如 Mei et al. 2024、Sun et al. 2024），但尚未专门关注酷儿俚语。
现有痛点：酷儿俚语在 LLM 预训练数据中代表性严重不足，导致两个具体问题：(1) 酷儿俚语常被错误标记为仇恨言论（如 "cunt" 在酷儿语境下是褒义形容词）；(2) 包含酷儿俚语的 prompt 会引发 LLM 更负面的回应。
核心矛盾：缺乏高质量的标注基准数据集，使得酷儿俚语的检测和处理无法被系统评估。很多术语（如 "mother"、"read"）有非酷儿含义，sense disambiguation 是最大的标注挑战。
本文要解决什么？ (1) 构建首个显式包含酷儿俚语的标注数据集；(2) 评估 SOTA 推理模型作为标注工具的可行性和局限性。
切入角度：从酷儿语言学出发，整合多源在线资源（本体、维基词典、术语表），收集真实使用实例并设计多阶段人机协作标注流程。
核心idea一句话：用多源爬取+LLM预筛选+社区标注的流水线，构建首个酷儿俚语 sense disambiguation 数据集。

方法详解¶

整体框架¶

整个工作围绕 SLAyiNG 数据集的构建展开，分为三个阶段：术语收集 → 原始数据集爬取 → 预筛选与标注。输入是多个在线酷儿语言资源，输出是经过 sense disambiguation、有害内容检测和作者身份标注的清洁数据集。

关键设计¶

多源术语收集与去重:
做什么：从 GSSO 本体（414 词）、lgbtDB（215 词）、Chew 术语表（65 词）和 Wiktionary（251 词）收集酷儿俚语术语，共 695 个术语 + 90 个变体
核心思路：用 all-mpnet-base-v2 对所有定义进行嵌入，计算余弦相似度矩阵，相似度 > 0.7 的冗余定义只保留较长（更详细）的那个
设计动机：同一术语在不同来源中可能有冗余定义（如 "bear"），但也可能有确实不同的含义（如 "angel" 在 ballroom 文化中有特定含义），需要在去重的同时保留有效的多义区分
三源原始数据集构建:
做什么：从 Reddit（58%，114K 条）、播客（35%，70K 条）和 OpenSubtitles 字幕（7%，13K 条）收集包含目标术语的句子，共 197,958 条
核心思路：Reddit 从 264 个 LGBTQ+ 相关 subreddit 中每词检索最多 15 条相关帖子；播客从 Podscripts 的 Society & Culture 类别（113 个播客）检索；字幕从 IMDb 酷儿相关影视列表对应的 OpenSubtitles 提取。所有句子保留 4-30 个 token 的长度范围
设计动机：多源设计确保覆盖不同使用语境（在线社区、口语媒体、影视对话），提高数据集的现实代表性
LLM 辅助预筛选 + 多阶段标注流水线:
做什么：用 o3-mini 作为预筛选工具，结合人工标注完成三项任务——sense disambiguation、有害内容检测、作者群体隶属判断
核心思路：五阶段流水线：(1) 3 名标注者标注 25 条样本建立基线一致性；(2) 各标注者标注约 2200 条，与 o3-mini 计算一致性；(3) 高一致性术语全量用 o3-mini 标注，低一致性术语用更强的 o3 重标；(4) 迭代人工标注 + 周期性一致性检查；(5) 招募酷儿社区成员验证
设计动机：原始数据集近 20 万条，纯人工标注不可行；但 LLM 对特定俚语（如 "anticistamines"）完全无法识别，42.52% 的术语一致性低，因此不能完全依赖 LLM

标注方案¶

采用 WSsim 任务设计，标注者对每个词义在 1-5 Likert 量表上评分
Sense disambiguation 是核心任务，因为大多数爬取实例都是 false positive（术语的非酷儿含义使用）

实验关键数据¶

人机标注一致性¶

评估指标	AA 间(25条)	AA1-LLMA(250条)	AA2-LLMA(250条)	AA3-LLMA(250条)	平均
Krippendorff's α	0.877	0.750	0.769	0.719	0.746
95% CI	[0.727, 0.959]	[0.675, 0.821]	[0.689, 0.840]	[0.643, 0.791]	-

术语级分析¶

配置	比例	说明
α > 0.6 或 F1 > 0.8	57.48%	o3-mini 能可靠标注的术语
低一致性术语	42.52%	仍需人工标注

关键发现¶

o3-mini 对新造词（如 "anticistamines" = anti-cis + antihistamines）完全失败（α = -0.833），因为训练数据中没有
对歧义性高的术语（如 "cunt" 在酷儿语境中是褒义形容词 vs 一般侮辱性名词），o3-mini 判断不稳定（α = 0.0）
人类标注者之间一致性很高（α = 0.877），说明标注任务本身是可行的

亮点与洞察¶

多源数据策略的实用性：从本体、词典、社交媒体、播客、字幕多渠道收集，比单一来源更能反映真实使用分布，这种策略可迁移到其他亚文化语言资源构建
LLM 作为标注工具的细粒度评估：不是简单说"LLM 能/不能标注"，而是精确到每个术语级别评估一致性，为混合标注流水线提供了量化依据
语义去重方法：用句嵌入 + 余弦相似度自动合并冗余定义同时保留多义性，简单有效

局限性 / 可改进方向¶

仅覆盖英语：酷儿俚语跨语言差异巨大，且英语酷儿俚语本身受其他语言影响
数据集尚未完成：论文描述的是进行中的工作，完整标注版本尚未发布
术语时效性：俚语快速演变，数据集只是 2025 年 7 月的快照
未评估下游任务效果：没有展示用 SLAyiNG 训练后的模型在仇恨言论检测、对话系统等下游任务上的改进

评分¶

新颖性: ⭐⭐⭐⭐ 首个酷儿俚语 NLP 数据集，填补了明确的空白
实验充分度: ⭐⭐⭐ 仅有初步标注一致性实验，无下游任务验证
写作质量: ⭐⭐⭐⭐ 背景知识介绍充分，术语来源和处理过程透明
价值: ⭐⭐⭐⭐ 对公平性和包容性 NLP 有实际推动意义，但需等完整数据集发布