Explaining Matters: Leveraging Definitions and Semantic Expansion for Sexism Detection¶

会议: ACL 2025
arXiv: 2506.06238
代码: 有 (https://github.com/Sahrish42/explaining_matters_sexism_detection_acl2025)
领域: NLP / 有害内容检测
关键词: 性别歧视检测, 数据增强, 定义驱动, 语义扩展, 集成学习

一句话总结¶

针对在线性别歧视检测中的数据稀疏和细粒度分类歧义问题，提出两种基于prompt的数据增强技术——定义驱动数据增强（DDA）利用类别定义生成语义对齐的合成样本，上下文语义扩展（CSE）通过分析模型错误的语义特征丰富训练数据——并结合 Mistral-7B 回退集成策略，在 EDOS 数据集上实现全任务 SOTA。

研究背景与动机¶

在线性别歧视语言严重影响女性和边缘群体，自动检测系统面临两大核心挑战：

挑战一：数据稀疏
即使在最大最精心策划的 EDOS 数据集中，类别极度不平衡。"Threats of harm"仅56个样本（1.1%），"Supporting mistreatment of individual women"仅75个（1.3%）。这种稀疏性严重阻碍了模型在低资源类别上的泛化。

挑战二：细粒度分类歧义
性别歧视语言本质上微妙且边界模糊，连人类标注者也难以达成一致。论文对 EDOS 测试集的分析揭示了惊人的标注不一致： - "Descriptive attacks": 54.1% 部分分歧 - "Backhanded gendered compliments": 83.3% 完全不一致 - "Threats of harm": 0% 完全一致（没有一组标注者完全同意！）

这些不一致不仅反映了任务难度，更在训练时引入了矛盾信号，损害模型性能。

方法详解¶

整体框架¶

流水线包含四个阶段： 1. 预训练：在 EDOS 的 200 万未标注数据上做 MLM 预训练 2. 数据增强：DDA 或 CSE 3. 微调：在增强数据上做监督微调 4. 集成：Mistral-7B 回退集成（M7-FE）

关键设计¶

定义驱动数据增强（Definition-based Data Augmentation, DDA）：

核心思想：将类别定义显式注入数据增强的 prompt 中，生成语义对齐的合成样本。

对每个训练样本 (x_i, y_i)，DDA 的 prompt 包含三部分： - 明确的生成指令：保持原始性别歧视意图 - 风格引导：模拟 Reddit/Gab 的非正式社交媒体语言 - 类别定义 φ(y_i)：从 EDOS 分类体系中提取的语义定义（如"2.1 Descriptive Attacks"的定义明确了什么算描述性攻击而非情感攻击）

为什么定义很重要？传统增强（如 EDA、回译）只关注语言多样性，无法理清相邻类别的语义边界。DDA 通过显式定义帮助生成器"理解"每个类别的核心特征，减少类别间的语义重叠。

DDA 仅针对最不平衡的 c=5 个类别生成合成数据。

上下文语义扩展（Contextual Semantic Expansion, CSE）：

核心思想：不是生成更多样本，而是为模型错分的样本生成语义解释，拼接在原文本后作为增强上下文。

CSE 的工作流程： - 用基线 DeBERTa 在训练数据上做预测，找出所有误分类样本 - 发现模型以高置信度（p > 0.9）做出错误预测——说明是系统性偏差而非随机错误 - 对每个误分类样本，用结构化prompt让LLM做6步语义分析： 1. 分析语言模式和风格特征 2. 检查中性/贬义语言 3. 评估与性别相关的情感偏见 4. 考虑情境上下文 5. 识别刻板印象和潜在偏见 6. 评估文本意图

输出的语义扩展拼接在原文本后：[x; e(x)]，作为增强训练数据。

CSE 处理了 2,518 个被错分为非性别歧视的性别歧视样本 + 2,328 个被错分为性别歧视的非性别歧视样本。

Mistral-7B 回退集成（M7-FE）：

结合 DeBERTa-v3-Large、Mistral-7B、DTFN 三个模型的预测： - 常规情况：多数投票决定最终预测 - 平局（二选一）：由 Mistral-7B 作为回退模型裁决 - 完全分歧（三方各不同）：使用 Mistral-7B 的预测

为什么用 Mistral-7B 做回退？预实验表明它在模糊性别歧视案例上更鲁棒。

设计动机类比人类标注流程：当标注者意见不一致时，需要引入第三方裁判。不同模型在不同数据和目标上训练，自然提供"多元视角"。

损失函数 / 训练策略¶

预训练：MLM（15% token masking），10 epochs
微调：标准交叉熵损失，DeBERTa/RoBERTa 训练30 epochs，Mistral-7B 训练10 epochs
硬件：4×A100 GPU

实验关键数据¶

主实验：EDOS 数据集¶

方法	Task A (二分类)	Task B (4类)	Task C (11类)
DeBERTa-v3-large (baseline)	0.8479	0.6875	0.5088
SemEval-2023 第一名	0.8746	0.7326	0.5606
SEFM (增强baseline)	0.8538	0.6619	0.4641
M7-FE (仅集成)	0.8603	0.7027	0.5213
+ Baseline Prompt	0.8783	0.7049	0.5601
+ DDA	0.8769	0.7277	0.6018
+ CSE	0.8819	0.7243	0.5639

消融：DDA vs 无定义prompt¶

DDA 在 Task C 上的改善最为显著：从 0.5601 提升至 0.6018（+4.17 F1），远超所有 SemEval 2023 参赛系统。

论文通过差异混淆矩阵详细分析了 DDA 的改善来源： - "2.3 Dehumanising attacks" 正确预测增加 42 例 - "3.4 Condescending explanations" 正确预测增加 8 例 - "3.1 Casual slurs" 和 "3.2 Gender stereotypes" 之间的互混从 48 降至 35（降低 ~27%）

关键发现¶

CSE 在二分类上效果最好（Task A: 0.8819），因为二分类的决策边界简单，更适合纠正系统性偏差
DDA 在细粒度分类上效果最好（Task C: 0.6018，比上一SOTA +4.1 F1），因为类别定义直接帮助区分相邻细粒度类别
传统增强方法（SEFM, HULAT/EDA）在细粒度任务上反而降低性能——缺乏语义约束的增强只会引入更多噪声
标注者不一致率与模型困惑高度相关：0% Full Agreement 的类别正是模型最容易错分的类别
模型在错分时置信度高达 p > 0.9——表明这是系统性bias而非不确定性，传统的置信度校准/self-correction无法解决

亮点与洞察¶

从标注者不一致出发分析问题：不仅看数据不平衡，更深入分析了标注者分歧的分布——在某些类别上甚至0%完全一致，这是比样本数少更根本的困难
DDA 的核心洞察：LLM 做数据增强时，给定类别定义比仅给指令有质的提升。定义充当了"语义锚"，约束生成器在正确的语义边界内生成
CSE 的"内省"式纠错：不是简单的self-training或置信度过滤，而是让LLM解释为什么一个样本可能被错分——类似 Chain-of-Thought 但用于分类而非生成
工程上务实：回退集成不追求方法新颖性，而是解决实际问题（多类别下投票平局），选择 Mistral-7B 做裁判基于实证而非理论

局限与展望¶

DDA 和 CSE 依赖 LLM（GPT-4o）做增强，可能引入预训练数据中的偏见
仅在英语 EDOS 数据集上评估，多语言和低资源语言效果未知
M7-FE 采用简单的多数投票+回退，加权投票或置信度聚合可能更优
CSE 的语义扩展增加了输入长度，可能影响推理效率
DDA 的类别定义来自 EDOS 官方分类体系——其他数据集可能缺乏如此清晰的定义

评分¶

新颖性: ⭐⭐⭐⭐ — DDA（定义驱动增强）和 CSE（语义扩展纠错）都是新提出的技术，设计动机清晰。集成策略虽然简单但有效
实验充分度: ⭐⭐⭐⭐ — EDOS 三个任务层次的全面评估，消融对比了有/无定义、不同增强方法，错误分析详尽
写作质量: ⭐⭐⭐⭐ — 标注者不一致分析表格直观有力，pipeline图清晰，prompt设计展示完整
价值: ⭐⭐⭐⭐ — Task C 的 +4.1 F1 提升是实质性进步，DDA 思路对其他细粒度NLP任务有广泛参考价值