Autalic: A Dataset for Anti-Autistic Ableist Language In Context¶

会议: ACL 2025
arXiv: 2410.16520
代码: https://nrizvi.github.io/AUTALIC.html
作者: Naba Rizvi, Harper Strickland, Daniel Gitelman, Tristan Cooper, Alexis Morales-Flores, Michael Golden, Aekta Kallepalli, Akshat Alurkar, Haaset Owens, Saleha Ahmedi, Isha Khirwadkar, Imani Munyaka, Nedjma Ousidhoum 机构: UC San Diego, Cardiff University 领域: 社会偏见与公平性 / 仇恨言论检测
关键词: 反自闭症歧视, 残障歧视语言, 上下文标注, 神经多样性, Reddit数据集, LLM偏见

一句话总结¶

提出 Autalic——首个专注于上下文中反自闭症残障歧视语言检测的数据集，包含 2,400 条 Reddit 句子及上下文标注，由神经多样性背景的专家标注，实验揭示当前 LLM（包括 DeepSeek、Llama3、Gemma2、Mistral）在识别反自闭症歧视语言时与人类判断严重不一致（平均 Cohen's Kappa 仅 0.091），凸显该任务的困难性。

研究背景与动机¶

领域现状：自闭症的医学模型将其定义为"疾病"和"缺陷"，这种框架在技术研究中被广泛使用，但与推崇所有神经类型均为人类多样性有效形式的"神经多样性"理念相冲突。反自闭症歧视语言因其微妙性和上下文依赖性，对 NLP 研究构成重大挑战。

现有方法的不足： - 现有毒性检测数据集多关注仇恨言论和冒犯语言，但几乎没有专门针对自闭症群体的数据集 - 23 个 LLM 偏见评估数据集中仅 3 个涉及残障，且没有针对自闭症 - 毒性分类器存在强烈的残障负面偏见——倾向于将任何与残障相关的文本标记为有毒 - LLM 被发现会隐含地传播残障歧视刻板印象

核心动机：构建以自闭症人群视角为中心的标注数据集，并评估当前 NLP 工具在该任务上的能力

方法详解¶

整体框架¶

数据收集（Reddit）→ 标注员培训 → 专家标注 → 基线评估（传统模型 + LLM）

数据收集¶

数据源：Reddit（文本导向、API 限制较少）
搜索关键词：包括 "autis", "ASD", "aspergers", "disabilit" 等
收集策略：对每个目标句子，同时收集前后上下文句子
最终规模：2,400 条目标句子 + 2,014 条前文 + 2,400 条后文
来源：192 个不同子版块，主要来源包括 r/Aspergers (116)、r/Autism (88)、r/AmITheAsshole (39) 等
数据清洗：精确词搜索过滤缩写歧义、排除非英文帖子和含媒体帖子

标注设计¶

标注员选拔与培训¶

招募 9 名高年级本科生志愿者，分 3 组（每组 3 人），每组标注 800 条
标注员背景多元：至少 3 名自我认同为神经发散，4 名性别少数群体
提供全面培训：自闭症歧视的历史（包括纳粹优生学）→ 医学模型的局限 → 神经多样性理念 → 当代歧视实例 → 标注示例讲解
提供术语表作为动态参考资源

标注标签¶

标签	含义	数量
1 (Ableist)	包含反自闭症歧视情感	1,023
0 (Not Ableist)	正面/中性/社区内讨论	5,582
-1 (Needs More Context)	无法确定分类	595

注：标注员标注目标句子时可参考上下文来判断意图（如是否为社区内讨论、反讽等）

标注结果¶

多数投票确定最终标签：242 条 (10%) 歧视, 2,160 条 (90%) 不歧视
Fleiss' Kappa = 0.25（低一致性凸显任务困难性）
完成时间与一致性呈显著负相关 (R=-0.644, p=0.0096)——培训后立即标注的人一致性更高

上下文的重要性¶

论文通过详细案例说明上下文对判断的关键作用： - 例如 "it's good that at least there's no link between the two" 单独看模糊不清 - 加入上下文后发现作者在讨论疫苗-自闭症关联的虚假说法（反自闭症污名化） - 标注员可随着认知更新修改之前的标注

实验¶

实验设置¶

传统基线：Logistic Regression (BoW)、BERT (预训练 + 微调)
LLM：Gemma2, Mistral, Llama3, DeepSeek（均 < 10B 参数）
提示类型：三种用语——PFL (person-first: "people with autism")、IFL (identity-first: "autistic people")、AA (概念性: "anti-autistic")
提示方式：简单零样本 vs. ICL（从标注培训中提取示例）

主实验结果¶

模型	模式	PFL F1	IFL F1	AA F1
LR (BoW)	预训练	0.20	—	—
BERT	预训练	0.43	—	—
BERT	微调	0.90	—	—
Gemma2	零样本	0.23	0.19	0.33
Mistral	零样本	0.28	0.27	0.34
Llama3	零样本	0.09	0.10	0.15
DeepSeek	零样本	0.58	0.57	0.59
Gemma2	ICL	0.25	0.24	0.34
Mistral	ICL	0.31	0.24	0.34
Llama3	ICL	0.14	0.14	0.11
DeepSeek	ICL	0.55	0.56	0.55

关键发现¶

LLM 与人类判断严重不一致：所有 LLM 的 Cohen's Kappa 平均仅 0.091 (SD=0.110)，远低于可靠水平
DeepSeek 最佳但仍不可靠：DeepSeek 表现最好且最一致（不受用语变化影响），但与人类一致性仍仅约 0.11
用语敏感性：
- Llama3 从 PFL→AA 的 F1 变化高达 67.49%，说明模型不理解不同描述指向同一现象
- ICL 后一致性改善（如 Llama3 从 67.49% 降至 17.40%），但绝对性能仍低
ICL 效果混合：Llama3 (+22.96%) 和 Gemma2 (+12.68%) 提升较大，但 DeepSeek 略微下降
微调 BERT 显著优于所有 LLM（F1=0.90），但初始存在高假阳性率问题

错误分析¶

分析人类标注一致但 LLM 不一致的 top 10% 句子，发现 LLM 严重过度分类： - Llama3 将 42 条句子标记为歧视，而人类标注全部为 0 - 这 42 条中 29 条是社区内讨论——如果用 LLM 做内容审核，会导致严重的社区审查 - 34 条包含负面含义词（"burden", "threat"等），但并非在反自闭症语境中使用 - 例：某句子引用了一个组织的观点，作者明确表示不同意该观点——标注员正确判断为"不歧视"，但 LLM 仅因负面词汇存在而错误分类

不一致性分析¶

100 个高不一致句子中观察到： 1. 48 条使用了医学模型术语或刻板印象（术语本身存争议） 2. 其余需要超出所提供上下文的额外信息

亮点与洞察¶

首个数据集：Autalic 是首个专门针对反自闭症歧视语言的标注数据集，填补了 NLP 公平性研究的重要空白
以自闭症群体视角为中心：标注员包含神经发散者，培训中包含医学模型批判和神经多样性教育——与主流数据集采用的"距离化"标注范式不同
上下文的关键性被量化：论文通过案例和统计分析清楚表明，脱离上下文的分类必然导致大量误判
LLM 用于内容审核的风险：LLM 的过度分类倾向会压制自闭症社区内部讨论——这对内容审核策略有重要警示
保留个体标注：公开全部标注（而非仅聚合标签），支持分歧分析研究
标注培训与完成时间的关系：量化证据表明及时标注（培训后立即执行）对一致性有重要影响

局限性¶

数据选择偏差：依赖关键词搜索和特定社交媒体线程，可能遗漏隐性歧视表达
西方中心视角：仅反映西方英语语境下的反自闭症歧视，不同文化中的歧视表现可能完全不同
数据规模相对较小（2,400 条），限制了深度学习模型的训练
计算资源限制：无法微调 LLM，仅使用 < 10B 参数的开源模型，无法评估更大模型
搜索词"r*tard"适用范围更广，可能引入与自闭症不直接相关的内容
数据主要来自 2023 年，可能不反映更早或更新的语言演变

评分¶

⭐⭐⭐⭐ (4/5)

创新性: ⭐⭐⭐⭐ — 首个反自闭症歧视语言数据集，研究空白的重要填补
实验充分性: ⭐⭐⭐⭐ — 4 个 LLM + 传统基线 × 3 种提示 × 零样本/ICL 的全面组合
写作质量: ⭐⭐⭐⭐⭐ — 伦理考量详尽，背景阐述深入，案例分析直观
实用价值: ⭐⭐⭐⭐ — 数据集公开，对内容审核策略有重要警示
局限: 数据规模小、仅英语、无法微调 LLM 进行更深入对比