A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings¶

会议: NeurIPS 2025
arXiv: 2505.12116
代码: 无（数据集公开）
领域: NLP / 低资源语言 / 内容审核
关键词: 低资源语言、仇恨言论检测、多任务学习、Tigrinya、基准数据集

一句话总结¶

针对低资源语言 Tigrinya，构建了首个大规模多任务基准数据集 TiALD（13,717条YouTube评论，涵盖滥用检测、情感分析、主题分类三任务），并证明小型微调模型在低资源场景下显著优于GPT-4o等前沿LLM（F1: 86.67% vs 79.31%）。

背景与动机¶

内容审核研究在英语等高资源语言上已取得显著进展，但全球大多数语言——尤其是非洲语言——仍处于资源严重匮乏状态。Tigrinya是一种约1000万人使用的闪族语言（主要在厄立特里亚和埃塞俄比亚），但计算资源极度匮乏，缺乏标注数据集和内容审核工具。这意味着Tigrinya社区的用户面临网络仇恨言论时几乎没有自动化保护。更深层的问题在于：现有的仇恨言论数据集大多是单任务的二分类标注，无法捕捉滥用内容的多维度特征（如情感倾向、话题类型），这限制了对滥用行为更精细的理解和建模。

核心问题¶

低资源语言缺乏高质量内容审核基准——随机采样导致正负样本严重失衡，关键词搜索又导致词汇多样性不足
现有数据集只做单一任务标注，缺乏多维度联合标注来支撑更丰富的分析
Tigrinya社交媒体有64%的内容使用拉丁转写而非原生的吉兹文字，现有工具无法处理这种双文字系统的现实

方法详解¶

整体框架¶

TiALD的构建流程为：从51个YouTube频道收集410万条评论 → 通过迭代语义聚类进行智能数据采样 → 9名母语标注员对13,717条评论进行三任务联合标注 → 通过黄金标签裁决构建高质量测试集 → 基于多种模型建立基线。

关键设计¶

迭代种子词扩展采样策略: 这是本文最核心的方法贡献。针对"随机采样正样本太少、关键词采样词汇单一"的难题，作者先用word2vec在410万评论上训练词向量，然后从61个种子词出发，通过三阶段迭代扩展（每阶段分别取50/25/10个最近邻，并过滤简单形态变化词），最终扩展到8,728个多样化术语。基于这些术语选取15K评论，再加5K随机样本作为对照组，得到20K候选池。这种策略的type-token ratio达到0.28，远优于纯随机采样的0.13，有效解决了形态复杂语言的数据采样问题。
三任务联合标注体系: 每条评论同时标注三个维度——滥用性（二分类：abusive/not abusive）、情感（四分类：positive/neutral/negative/mixed）、主题（五分类：political/racial/sexist/religious/other）。这种设计允许交叉分析，比如"abusive + political"组合可解读为政治仇恨言论，"abusive + sexist"则定位厌女内容。
双文字系统覆盖: 数据集中70%为吉兹文字、30%为拉丁转写或混合文字，真实反映了Tigrinya社交媒体的语言使用现状。这一设计使训练出的模型能处理实际场景中两种书写系统并存的情况。
跨模态上下文增强: 使用Qwen-2.5-VL 3B生成评论对应视频的视觉内容描述，再用GPT-4o精炼，为分析滥用言论与视频内容间的关系提供跨模态信号。

基线实验设置¶

单任务微调: 分别在TiRoBERTa、TiELECTRA（Tigrinya专用）、AfriBERTa、AfroXLMR-76L（非洲多语言）、XLM-RoBERTa（通用多语言）上训练
多任务联合学习: 共享encoder + 单个线性分类头映射到11维logit（2+4+5），使用sigmoid + BCE loss
LLM上下文学习: GPT-4o、Claude Sonnet 3.7（前沿模型）+ LLaMA-3.2 3B、Gemma-3 4B（小型开源模型），zero-shot和few-shot

实验关键数据¶

模型	滥用检测 F1	情感 F1	主题 F1	TiALD总分
TiRoBERTa (单任务)	86.67	52.82	54.23	64.57
TiRoBERTa (多任务)	86.11	53.41	54.91	64.81
AfroXLMR-76L (多任务)	85.44	54.50	52.46	64.13
GPT-4o (zero-shot)	71.05	20.55	26.25	39.28
GPT-4o (few-shot)	72.06	21.88	27.56	40.50
Claude 3.7 (few-shot)	79.31	23.39	27.92	43.54
Gemma-3 4B (few-shot)	58.37	30.46	39.49	42.78

消融实验要点¶

多任务 vs 单任务: 联合学习几乎在所有模型上都有提升，TiELECTRA提升+1.76分，XLM-RoBERTa提升+1.85分。关键在于少数类的F1大幅改善——TiRoBERTa的sexist类F1从31.78%飙升至46.30%（+14.52pp）
视频标题作为上下文: 加入视频标题后TiRoBERTa总分从64.81提升到65.23，情感分析提升+1.5分
LLM的跨模态增强: GPT-4o加入视频上下文后zero-shot F1从71.05提升到75.59；Claude从59.20提升至72.02（+12.82pp），说明上下文对低资源语言LLM尤其重要
采样策略: 迭代种子扩展采样的abusive比例为65.2%，对照组随机采样仅14.3%，type-token ratio 27.6% vs 7.2%
LLaMA tokenization问题: LLaMA-3.2处理Tigrinya需要每字符2.31个token（英语仅0.20），导致严重的分类不稳定——zero-shot时68%预测为abusive，few-shot又反转为77%预测non-abusive

亮点¶

迭代种子词扩展采样是一个简单但高效的方法，对任何需要从大量无标注数据中构建标注池的场景都有参考价值，尤其适合形态复杂的低资源语言
多任务联合学习对少数类的增益非常显著，这在内容审核的实际部署中至关重要——恰恰是那些占比少的敏感类别（性别歧视、宗教仇恨）最需要被捕捉
标注者间一致性的精细分析（Cohen's κ: 滥用0.758、情感0.649、主题0.603）以及黄金标签裁决流程，为低资源语言的数据标注提供了可复用的方法论
揭示了一个重要发现：小模型微调在低资源场景下全面碾压前沿LLM，尤其在多分类任务上差距达15-24个F1点

局限性 / 可改进方向¶

只关注显式滥用：未涉及微攻击（microaggressions）和隐式偏见，而这些在真实场景中同样有害
滥用标签粒度不够：仅二分类（abusive/not），未区分仇恨言论、人身攻击、威胁等子类型
数据来源单一：仅来自YouTube评论，社交媒体平台间的分布差异可能影响模型泛化
多任务架构过于简单：当前用的是硬参数共享 + 单线性头 + 等权BCE loss，未探索任务权重调节、注意力机制等更精细的多任务策略
潜在方向：将迭代种子扩展方法推广到其他低资源语言；探索LLM tokenizer的改进以缩小低资源语言的性能差距

与相关工作的对比¶

vs AfriHate (Muhammad et al. 2025): AfriHate覆盖15种非洲语言的Twitter数据，Tigrinya子集5,072条推文仅标注滥用性和目标类型。TiALD在规模（13,717条）、任务维度（三任务）、数据多样性（种子扩展采样）、平台代表性（YouTube在Tigrinya社区更流行）上全面胜出。AfriHate的F1基线为74.5%，而TiALD达86.67%
vs 英语数据集 (Davidson et al. 2017; Waseem & Hovy 2016等): 这些数据集规模更大但只做单任务，且不面临书写系统混合的挑战。TiALD的独特价值在于多任务设计和双文字覆盖
vs MTL方法 (Dai et al. 2020; Rajamanickam et al. 2020): 之前的多任务方法聚焦英语，且通常是联合建模滥用+情感两个任务。TiALD首次将这一思路应用到低资源语言，并增加了主题分类维度

启发与关联¶

这篇论文有几个值得思考的方向： 1. 迭代种子扩展采样方法可推广为通用的低资源数据构建方法论，不限于内容审核 2. "小模型微调碾压大模型"的发现在低资源场景下具有重要实践意义——在部署成本受限的发展中国家，专用小模型可能是更现实的选择 3. LLM tokenizer对低资源语言的严重低效（11.5x token膨胀）是一个值得深入研究的问题

评分¶

新颖性: ⭐⭐⭐ 核心贡献在数据集和基准建设，方法上的迭代种子扩展有一定新意但较为简单
实验充分度: ⭐⭐⭐⭐ 覆盖单/多任务微调和多种LLM，消融详尽，per-class分析深入
写作质量: ⭐⭐⭐⭐ 结构清晰，动机阐述到位，实验分析有深度
价值: ⭐⭐⭐⭐ 对低资源语言内容审核社区贡献显著，数据集和发现具有实际意义