跳转至

HateDay: Insights from a Global Hate Speech Dataset Representative of a Day on Twitter

会议: ACL 2025
arXiv: 2411.15462
代码: 无(数据集: https://huggingface.co/datasets/manueltonneau/hateday
领域: NLP理解 / 仇恨言论检测
关键词: hate speech, dataset, Twitter, cross-lingual, content moderation

一句话总结

HateDay 构建了首个全球代表性仇恨言论数据集——24 万条随机采样的 Twitter 推文覆盖 8 种语言和 4 个英语国家,揭示了学术数据集大幅高估了检测模型在真实场景中的表现,尤其对非欧洲语言检测能力极差。

研究背景与动机

  1. 领域现状:仇恨言论检测是重要的内容审核任务。学术界开发了大量检测模型和数据集,但主要集中在英语,且数据集存在系统性偏差(类别分布、话题多样性与真实社交媒体不匹配)。
  2. 现有痛点:(1) 学术评估数据集与真实社媒分布偏差大——仇恨言论在真实场景中极低频(<2%),但学术数据集人为高频;(2) 跨语言/跨国家对比困难——不同语言的数据集构建方法不同;(3) 聚焦语言忽略同一语言不同国家间的差异(如印度 vs 尼日利亚 vs 美国英语)。
  3. 核心矛盾:在偏差数据集上表现良好的模型在真实部署场景中可能完全不可用。
  4. 本文要解决什么? 构建首个全球代表性数据集,真实评估检测模型在社交媒体上的实际效果。
  5. 切入角度:利用 TwitterDay 数据集(2022.9.21 全部 3.75 亿推文),按语言/国家随机采样+人工标注。
  6. 核心idea一句话:用真实代表性数据首次量化学术评估与真实场景的性能差距,发现检测性能被严重高估。

方法详解

整体框架

数据构建(TwitterDay 3.75 亿推文 → 8 语言 + 4 国家各采样 2 万条 → 36 名标注员标注 hateful/offensive/neutral)→ 分析仇恨言论分布 → 评估 SOTA 检测模型在 HateDay vs 学术数据集上的性能差距 → 分析模型失败原因 → 评估内容审核可行性。

关键设计

  1. 代表性采样:从完整一天的所有推文中随机采样,保证了分布真实性——不是关键词搜索或特定事件采集
  2. 跨语言+跨国家:8 种语言(阿拉伯语、英语、法语、德语、印尼语、葡萄牙语、西班牙语、土耳其语)+ 4 个英语国家(印度、肯尼亚、尼日利亚、美国)
  3. 三级标注:hateful / offensive / neutral,仇恨推文还标注受攻击群体
  4. 36 名标注员,每种语言/国家 3 人,最大化来源多样性

实验关键数据

仇恨言论分布

维度 仇恨率 说明
全局平均 ~1-2% 真实场景中仇恨言论极稀少
土耳其语 最高(~3%) 语言间差异大
印尼语 最低(<1%)
学术数据集 20-50% 人为富集

模型评估:学术数据集 vs HateDay

指标 学术数据集 HateDay (真实) 差距
F1 (英语) ~80%+ 大幅下降 高估严重
F1 (非欧洲语言) - 极低 几乎不可用
Precision 误报率极高

关键发现

  • 学术评估严重高估真实性能:在学术数据集上表现"良好"的模型在 HateDay 上表现极差
  • 非欧洲语言检测能力极差:阿拉伯语、印尼语、土耳其语的检测 F1 远低于英语
  • 模型难以区分仇恨与冒犯:大量 offensive 但非 hateful 的内容被错误标记
  • 学术数据集与真实分布的目标群体不匹配:学术数据集过度关注某些目标群体,忽略了真实场景中常见的群体
  • 完全自动审核不可行:误报率太高;人机协同审核可行但需要大量人力

亮点与洞察

  • "代表性数据"的方法论价值:从全部推文随机采样而非靠关键词搜索,是构建真实评估基准的金标准方法
  • 跨国家分析:首次系统比较同一语言(英语)在不同国家的仇恨言论差异
  • 实际部署建议:明确给出"公开模型不适合自动审核"的结论,对平台审核策略有直接影响

局限性 / 可改进方向

  • 仅覆盖一天的数据,无法捕捉事件驱动的仇恨言论(如政治事件后的激增)
  • Twitter 特定,不代表其他平台(Reddit, Facebook 等)
  • 国家推断基于用户自报位置,有误差
  • 24 万条对训练来说仍然有限

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个全球代表性仇恨言论数据集,填补重要空白
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 语言 4 国家 24 万条,分析深入
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,发现有冲击力
  • 价值: ⭐⭐⭐⭐⭐ 对仇恨言论检测领域有范式影响