HateDay: Insights from a Global Hate Speech Dataset Representative of a Day on Twitter¶

会议: ACL 2025
arXiv: 2411.15462
代码: 无（数据集: https://huggingface.co/datasets/manueltonneau/hateday）
领域: NLP理解 / 仇恨言论检测
关键词: hate speech, dataset, Twitter, cross-lingual, content moderation

一句话总结¶

HateDay 构建了首个全球代表性仇恨言论数据集——24 万条随机采样的 Twitter 推文覆盖 8 种语言和 4 个英语国家，揭示了学术数据集大幅高估了检测模型在真实场景中的表现，尤其对非欧洲语言检测能力极差。

研究背景与动机¶

领域现状：仇恨言论检测是重要的内容审核任务。学术界开发了大量检测模型和数据集，但主要集中在英语，且数据集存在系统性偏差（类别分布、话题多样性与真实社交媒体不匹配）。
现有痛点：(1) 学术评估数据集与真实社媒分布偏差大——仇恨言论在真实场景中极低频（<2%），但学术数据集人为高频；(2) 跨语言/跨国家对比困难——不同语言的数据集构建方法不同；(3) 聚焦语言忽略同一语言不同国家间的差异（如印度 vs 尼日利亚 vs 美国英语）。
核心矛盾：在偏差数据集上表现良好的模型在真实部署场景中可能完全不可用。
本文要解决什么？ 构建首个全球代表性数据集，真实评估检测模型在社交媒体上的实际效果。
切入角度：利用 TwitterDay 数据集（2022.9.21 全部 3.75 亿推文），按语言/国家随机采样+人工标注。
核心idea一句话：用真实代表性数据首次量化学术评估与真实场景的性能差距，发现检测性能被严重高估。

方法详解¶

整体框架¶

数据构建（TwitterDay 3.75 亿推文 → 8 语言 + 4 国家各采样 2 万条 → 36 名标注员标注 hateful/offensive/neutral）→ 分析仇恨言论分布 → 评估 SOTA 检测模型在 HateDay vs 学术数据集上的性能差距 → 分析模型失败原因 → 评估内容审核可行性。

关键设计¶

代表性采样：从完整一天的所有推文中随机采样，保证了分布真实性——不是关键词搜索或特定事件采集
跨语言+跨国家：8 种语言（阿拉伯语、英语、法语、德语、印尼语、葡萄牙语、西班牙语、土耳其语）+ 4 个英语国家（印度、肯尼亚、尼日利亚、美国）
三级标注：hateful / offensive / neutral，仇恨推文还标注受攻击群体
36 名标注员，每种语言/国家 3 人，最大化来源多样性

实验关键数据¶

仇恨言论分布¶

维度	仇恨率	说明
全局平均	~1-2%	真实场景中仇恨言论极稀少
土耳其语	最高(~3%)	语言间差异大
印尼语	最低(<1%)
学术数据集	20-50%	人为富集

模型评估：学术数据集 vs HateDay¶

指标	学术数据集	HateDay (真实)	差距
F1 (英语)	~80%+	大幅下降	高估严重
F1 (非欧洲语言)	-	极低	几乎不可用
Precision	高	低	误报率极高

关键发现¶

学术评估严重高估真实性能：在学术数据集上表现"良好"的模型在 HateDay 上表现极差
非欧洲语言检测能力极差：阿拉伯语、印尼语、土耳其语的检测 F1 远低于英语
模型难以区分仇恨与冒犯：大量 offensive 但非 hateful 的内容被错误标记
学术数据集与真实分布的目标群体不匹配：学术数据集过度关注某些目标群体，忽略了真实场景中常见的群体
完全自动审核不可行：误报率太高；人机协同审核可行但需要大量人力

亮点与洞察¶

"代表性数据"的方法论价值：从全部推文随机采样而非靠关键词搜索，是构建真实评估基准的金标准方法
跨国家分析：首次系统比较同一语言（英语）在不同国家的仇恨言论差异
实际部署建议：明确给出"公开模型不适合自动审核"的结论，对平台审核策略有直接影响

局限性 / 可改进方向¶

仅覆盖一天的数据，无法捕捉事件驱动的仇恨言论（如政治事件后的激增）
Twitter 特定，不代表其他平台（Reddit, Facebook 等）
国家推断基于用户自报位置，有误差
24 万条对训练来说仍然有限

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个全球代表性仇恨言论数据集，填补重要空白
实验充分度: ⭐⭐⭐⭐⭐ 8 语言 4 国家 24 万条，分析深入
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，发现有冲击力
价值: ⭐⭐⭐⭐⭐ 对仇恨言论检测领域有范式影响