Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?¶

会议: ICLR 2026
arXiv: 2509.22291
代码: https://github.com/Ewanwong/fairness_x_explainability
领域: AI安全 / 公平性
关键词: fairness, explainability, hate speech detection, input attribution, bias mitigation

一句话总结¶

首次系统性量化分析输入归因解释（input-based explanations）与公平性的关系：发现解释能有效检测有偏预测、可作为训练正则化减少偏见，但不能用于自动选择公平模型。

领域现状：NLP 模型在仇恨言论检测等敏感任务中常复现或放大训练数据中的社会偏见。可解释性被普遍认为是促进公平性的关键——如果能通过解释发现模型依赖了敏感特征（种族、性别词），就能检测偏见并施加约束。
现有痛点：(a) 部分研究质疑解释方法的忠实度——它们未必反映真实决策过程 (b) 减少敏感特征依赖可能同时损害性能和公平性 (c) 模型可被刻意训练为在解释中隐藏对敏感特征的使用。现有研究多为定性分析或小规模实验。
核心矛盾：可解释性和公平性的关系被过度简化——"解释能发现偏见→就能消除偏见"这一假设缺乏大规模定量验证。
本文要解决什么？ 三个研究问题：(RQ1) 解释能否检测有偏预测？ (RQ2) 解释能否选择公平模型？ (RQ3) 解释能否在训练中减少偏见？
切入角度：在仇恨言论检测上，用 16 种解释方法 × encoder/decoder 模型 × 多种去偏技术 × 两个数据集做大规模实验。
核心idea一句话：输入归因解释在偏见检测和训练减偏中有效，但在模型选择中不可靠——可解释性和公平性的关系是 task-specific 且方法选择敏感的。

三个 RQ 对应三条实验流水线：(RQ1) 计算解释的敏感 token 依赖分数，与个体不公平度做 Pearson 相关 (RQ2) 用验证集上的敏感 token 依赖排名模型，看能否预测测试集公平性 (RQ3) 将敏感 token 依赖作为正则项加入损失训练去偏模型。

敏感 token 依赖分数 (Sensitive Token Reliance)：
做什么：量化模型对输入中敏感词（如"black", "female", "Muslim"）的依赖程度。
核心思路：对 16 种解释方法生成的 token 级归因分数，取敏感 token 中的最大绝对值作为该样本的依赖分数。
用途：RQ1 中与个体不公平度做相关，RQ2 中作为模型排名指标，RQ3 中作为正则化目标。
个体不公平度 (Individual Unfairness, IU)：
做什么：衡量模型对同一样本在更换社会群体后预测的变化。
核心思路：\(IU(\mathbf{x}_i) = |f_{\hat{y}_i}(\mathbf{x}_i) - \frac{1}{|G|-1}\sum_{g'} f_{\hat{y}_i}(\mathbf{x}_i^{(g')})|\)，其中 \(\mathbf{x}_i^{(g')}\) 是反事实替换版本。
与群体公平的区别：IU 在样本级定义，可以与解释分数做逐样本相关。
解释正则化去偏 (RQ3)：
做什么：在训练时最小化模型对敏感 token 的依赖。
损失：\(L = L_{task} + \alpha L_{debias}\)，\(L_{debias}\) 惩罚敏感 token 的归因分数（L1 或 L2 范数）。
搜索 \(\alpha \in \{0.01, 0.1, 1, 10, 100\}\)，用公平性平衡指标（accuracy 和 unfairness 的调和平均）选择。

16 种解释方法 × 2 类模型（encoder: BERT/RoBERTa, decoder: Llama3.2/Qwen3） × 7 种去偏方法 × 2 个数据集 × 3 种偏见类型。

解释方法	BERT (Race)	BERT (Gender)	Qwen3-4B (Race)	Qwen3-4B (Gender)
Grad L2	高	中	高	高
Occlusion	高	高	中	中
IxG L2	高	中	高	高
Attention	低	低	低	低

最佳方法（Occlusion/L2 范数类）在大多数设置中实现显著的 fairness correlation。

解释方法的验证集指标与测试集公平性的 Spearman 相关不稳定，MRR@1 始终低于直接使用验证集 IU 的 baseline。结论：解释不可靠用于模型选择。

方法	Race AvgIU↓	Gender AvgIU↓	Religion AvgIU↓
Default BERT	3.17	0.66	1.27
Best 解释正则化	~1.5	~0.4	~0.8
CDA（最佳传统去偏）	0.50	0.50	0.90

解释正则化能显著降低 AvgIU，尤其在 race 偏见上。部分方法的去偏效果接近或超过传统去偏技术。

RQ1 ✓：Occlusion 和 L2 范数类方法能有效检测有偏预测，fairness correlation 在统计上显著。即使模型经过去偏训练，检测能力仍然保持——否定了"去偏后解释失效"的担忧。
RQ2 ✗：解释方法不能替代直接计算验证集公平性来选择模型。原因是去偏改变了模型行为和归因模式，跨模型比较解释不可靠，而同一模型内比较仍然有效。
RQ3 ✓：将敏感 token 依赖作为正则项训练有效降低偏见，效果与或优于部分传统去偏方法。
LLM 生成的理由不如输入归因可靠：LLM 的自然语言解释在偏见检测上不如 Occlusion/L2 方法。

三维度系统评估：首次将"解释 → 公平"的关系拆解为检测/选择/减偏三个维度，给出了差异化的结论（2/3 有效），而非简单的"有用/无用"。
Mean vs L2 的发现：Mean 聚合的归因分数在偏见检测中显著劣于 L2 聚合和 Occlusion，原因是 Mean 需要准确判断每个 token 贡献的方向，而 L2 和 Occlusion 不受方向影响。这对选择可解释性方法有直接指导意义。
解释忠实度 ≠ 公平检测能力：附录分析发现，解释方法的忠实度（faithfulness）与其偏见检测能力无关——一个"不忠实"的解释也可能很好地捕捉敏感特征的使用。