HateDay: Insights from a Global Hate Speech Dataset Representative of a Day on Twitter¶
会议: ACL 2025
arXiv: 2411.15462
代码: 无(数据集: https://huggingface.co/datasets/manueltonneau/hateday)
领域: NLP理解 / 仇恨言论检测
关键词: hate speech, dataset, Twitter, cross-lingual, content moderation
一句话总结¶
HateDay 构建了首个全球代表性仇恨言论数据集——24 万条随机采样的 Twitter 推文覆盖 8 种语言和 4 个英语国家,揭示了学术数据集大幅高估了检测模型在真实场景中的表现,尤其对非欧洲语言检测能力极差。
研究背景与动机¶
- 领域现状:仇恨言论检测是重要的内容审核任务。学术界开发了大量检测模型和数据集,但主要集中在英语,且数据集存在系统性偏差(类别分布、话题多样性与真实社交媒体不匹配)。
- 现有痛点:(1) 学术评估数据集与真实社媒分布偏差大——仇恨言论在真实场景中极低频(<2%),但学术数据集人为高频;(2) 跨语言/跨国家对比困难——不同语言的数据集构建方法不同;(3) 聚焦语言忽略同一语言不同国家间的差异(如印度 vs 尼日利亚 vs 美国英语)。
- 核心矛盾:在偏差数据集上表现良好的模型在真实部署场景中可能完全不可用。
- 本文要解决什么? 构建首个全球代表性数据集,真实评估检测模型在社交媒体上的实际效果。
- 切入角度:利用 TwitterDay 数据集(2022.9.21 全部 3.75 亿推文),按语言/国家随机采样+人工标注。
- 核心idea一句话:用真实代表性数据首次量化学术评估与真实场景的性能差距,发现检测性能被严重高估。
方法详解¶
整体框架¶
数据构建(TwitterDay 3.75 亿推文 → 8 语言 + 4 国家各采样 2 万条 → 36 名标注员标注 hateful/offensive/neutral)→ 分析仇恨言论分布 → 评估 SOTA 检测模型在 HateDay vs 学术数据集上的性能差距 → 分析模型失败原因 → 评估内容审核可行性。
关键设计¶
- 代表性采样:从完整一天的所有推文中随机采样,保证了分布真实性——不是关键词搜索或特定事件采集
- 跨语言+跨国家:8 种语言(阿拉伯语、英语、法语、德语、印尼语、葡萄牙语、西班牙语、土耳其语)+ 4 个英语国家(印度、肯尼亚、尼日利亚、美国)
- 三级标注:hateful / offensive / neutral,仇恨推文还标注受攻击群体
- 36 名标注员,每种语言/国家 3 人,最大化来源多样性
实验关键数据¶
仇恨言论分布¶
| 维度 | 仇恨率 | 说明 |
|---|---|---|
| 全局平均 | ~1-2% | 真实场景中仇恨言论极稀少 |
| 土耳其语 | 最高(~3%) | 语言间差异大 |
| 印尼语 | 最低(<1%) | |
| 学术数据集 | 20-50% | 人为富集 |
模型评估:学术数据集 vs HateDay¶
| 指标 | 学术数据集 | HateDay (真实) | 差距 |
|---|---|---|---|
| F1 (英语) | ~80%+ | 大幅下降 | 高估严重 |
| F1 (非欧洲语言) | - | 极低 | 几乎不可用 |
| Precision | 高 | 低 | 误报率极高 |
关键发现¶
- 学术评估严重高估真实性能:在学术数据集上表现"良好"的模型在 HateDay 上表现极差
- 非欧洲语言检测能力极差:阿拉伯语、印尼语、土耳其语的检测 F1 远低于英语
- 模型难以区分仇恨与冒犯:大量 offensive 但非 hateful 的内容被错误标记
- 学术数据集与真实分布的目标群体不匹配:学术数据集过度关注某些目标群体,忽略了真实场景中常见的群体
- 完全自动审核不可行:误报率太高;人机协同审核可行但需要大量人力
亮点与洞察¶
- "代表性数据"的方法论价值:从全部推文随机采样而非靠关键词搜索,是构建真实评估基准的金标准方法
- 跨国家分析:首次系统比较同一语言(英语)在不同国家的仇恨言论差异
- 实际部署建议:明确给出"公开模型不适合自动审核"的结论,对平台审核策略有直接影响
局限性 / 可改进方向¶
- 仅覆盖一天的数据,无法捕捉事件驱动的仇恨言论(如政治事件后的激增)
- Twitter 特定,不代表其他平台(Reddit, Facebook 等)
- 国家推断基于用户自报位置,有误差
- 24 万条对训练来说仍然有限
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个全球代表性仇恨言论数据集,填补重要空白
- 实验充分度: ⭐⭐⭐⭐⭐ 8 语言 4 国家 24 万条,分析深入
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,发现有冲击力
- 价值: ⭐⭐⭐⭐⭐ 对仇恨言论检测领域有范式影响