Gender Inclusivity Fairness Index (GIFI): A Multilevel Framework¶

会议: ACL 2025
arXiv: 2506.15568
代码: https://github.com/ZhengyangShan/GIFI
领域: AI 安全 / 公平性评估
关键词: gender fairness, non-binary pronouns, LLM evaluation, inclusivity index, neopronouns

一句话总结¶

提出 GIFI（Gender Inclusivity Fairness Index），一个多层次综合评估框架，涵盖代词识别、情感中立性、毒性、反事实公平性、刻板印象关联、职业公平性和推理性能一致性七个维度，在 22 个 LLM 上系统评估二元与非二元性别的公平性。

研究背景与动机¶

LLM 的快速发展推动了 NLP 进步，但引发了公平性关切，尤其是性别表达方面
现有性别偏见研究主要聚焦于二元性别（男/女），忽视了非二元性别身份
大多数研究仅评估 "he" 和 "she" 的差异
非二元代词（they/them, 新代词如 xe, ze, ae 等）的表现几乎未被评估
缺乏一个综合性、可解释的指标来量化 LLM 对多元性别的包容性
已有数据集（如 StereoSet, CrowS-Pairs）不专门针对非二元代表或经验
核心贡献：从简单的代词识别到深层的认知推理，建立多层次递进评估框架

方法详解¶

整体框架¶

GIFI 由四个递进阶段、七个评估维度组成： 1. 代词识别（Pronoun Recognition）：GDR 2. 分布公平性（Fairness in Distribution）：SN, NTS, CF 3. 刻板印象与角色分配（Stereotype and Role Assignment）：SA, OF 4. 性能一致性（Consistency in Performance）：PE

最终 GIFI = 七个指标的平均值 × 100，范围 0-100。

关键设计¶

性别身份覆盖¶

覆盖 11 个代词组：
二元：he/him/his, she/her/hers
中性：they/them/their
新代词（8 组）：thon, e/em, ae/aer, co, vi/vir, xe/xem, ey/em, ze/zir
比现有研究的代词覆盖范围大幅扩展

七个评估维度详解¶

1. Gender Diversity Recognition (GDR) - 测试模型能否识别输入中的性别代词并在输出中正确使用 - 对每组代词构建包含该代词的 prompt，检查输出中代词的一致性 - 使用变异系数（CV）衡量跨代词组的一致性：GDR = 1/(1+CV) - 范围 [0,1]，1 表示对所有代词组的识别完全一致

2. Sentiment Neutrality (SN) - 评估更换性别代词是否影响模型输出的情感 - 使用 RoBERTa-base 情感分类器评分 - SN = 1 - Average MAD（跨代词组的平均绝对偏差）

3. Non-Toxicity Score (NTS) - 评估模型对不同性别代词的毒性输出差异 - 使用 Google Perspective API 评分 - NTS = 1 - Average MAD

4. Counterfactual Fairness (CF) - 仅改变代词的配对输入，比较输出的语义相似度 - 使用 sentence-transformers 编码，余弦相似度低于阈值 γ=0.3 则判定为"实质不同" - CF = 不实质不同的配对占比

5. Stereotypical Association (SA) - 无性别提示的 prompt（含刻板印象活动/性格/偏好），分析模型输出生成的代词分布 - 公平分数 = 1 - 代词分布与均匀分布的平方偏差 - 排除 "they" 以避免高频默认代词的干扰

6. Occupational Fairness (OF) - 类似 SA，但使用职业相关 prompt - 选取 40 个男性主导 + 40 个女性主导职业 - 同样排除 "they"

7. Performance Equality (PE) - 使用 GSM8K 数学推理题，替换人名为不同代词 - 评估模型数学推理能力是否因代词不同而变化 - 使用 8-shot CoT prompting - PE = 1/(1+CV)

损失函数 / 训练策略¶

本文是纯评估框架，不涉及模型训练。所有指标设计为 [0,1] 区间，高分表示更公平。

实验关键数据¶

评估模型（22 个）¶

开源：LLaMA 2/3/4, Vicuna, Mistral, Gemma 2/3, GPT-2, Zephyr, Yi-1.5, Qwen 3, DeepSeek V3, Phi-3
闭源：GPT-4/4o/4o-mini/3.5-turbo, Claude 3 Haiku/4 Sonnet, Gemini 1.5 Flash/Pro/2.0 Flash

数据集构建¶

GDR：改编 TANGO 数据集，2200 个 prompt
SN/NTS/CF：Real-Toxicity-Prompts 子集，2200 个样本
SA/OF：模板化数据集，80 个职业
PE：GSM8K 子集 + 代词替换，1100 个样本

GIFI 总排名（Top-5 和 Bottom-5）¶

排名	模型	GIFI 分数
1	GPT-4o	最高
2	Claude 3	第二
3	DeepSeek V3	第三
...	...	...
倒数	Vicuna, GPT-2, LLaMA 2	最低

各维度详细结果¶

代词识别 (GDR)¶

Claude 4 最优（均值 0.75），GPT-4o (0.73)，GPT-4 (0.65)
Zephyr (0.19), GPT-2 (0.22) 表现最差
Gemini 1.5 Pro 出奇地低：约 50% 生成完全不包含代词
Claude 4, LLaMA 3, Phi-3 的跨代词方差最低（最一致）

情感/毒性¶

所有模型整体都表现出较强的中立性和低毒性
GPT-4o mini, GPT-4, Gemini 1.5 Pro, Claude 4 情感中立性最高
Claude 3/4 毒性最低
GPT-2, Phi-3 毒性分布有长尾

刻板印象关联 (SA)¶

几乎没有模型生成新代词：所有模型在无性别提示时不生成 ne/xe/ze 等
Phi-3 最均衡：he (0.34), she (0.31), they (0.34)
GPT-4o 和 LLaMA 4 强烈偏好 "she"（0.86 和 0.83），可能是去偏见训练的过度矫正
"they" 使用率很少超过 30%

职业公平性 (OF)¶

Claude 4 严重偏向 "she" (0.72) vs "he" (0.26) vs "they" (0.02)
Gemini 1.5 Pro/Flash, Qwen 3, Mistral 相对均衡
多数模型 "they" 占比不超过 10%

数学推理公平性 (PE)¶

Gemini 2.0 Flash 和 DeepSeek V3 最高准确率 (0.92)
Claude 4 (0.85), GPT-4o (0.80) 紧随其后
强模型对所有代词（包括新代词）表现一致，弱模型则全面失败（非偏见导致）

关键发现¶

新代词在无提示时完全缺席：所有 22 个模型在刻板印象/职业任务中从不自发生成新代词
"she" 过度矫正现象普遍：为减少历史上的男性偏见，许多新模型过度偏向女性代词
表面公平性 ≠ 深层包容性：虽然 she 使用增加，但 they 仍不足，新代词完全缺失
推理公平性主要取决于模型能力：强模型对所有代词公平（因为能力强），弱模型对所有代词同样失败（因为能力不足）
不同维度的表现可能不一致：如 Claude 4 代词识别最优，但刻板印象关联较差

亮点与洞察¶

首个覆盖非二元性别的综合公平性指标：填补了重要的研究空白
多层次递进设计合理：从浅层（代词识别）到深层（推理能力一致性），逐步揭示偏见
评估规模空前：22 个模型 × 7 个维度 × 11 个代词组
发现了去偏见训练的"过度矫正"问题：值得模型开发者关注
PE 维度（数学推理）的设计有洞察力：表面上与性别无关的任务也可能受代词影响

局限性 / 可改进方向¶

仅覆盖英语：不同语言的性别系统（如语法性别语言）需要适配
新代词集合不完整：代词系统持续演变，框架需要支持扩展
外部工具（情感分类器、毒性 API）本身可能有偏见
数据污染风险：部分评估数据集（如 RealToxicityPrompts）可能已被模型训练数据覆盖
缺少交叉性分析：未考虑性别与种族、残疾等其他维度的交叉偏见
模型输出的随机性影响可复现性：即使设置了温度和 top-p
GIFI 使用简单平均聚合七个指标：各维度的权重可能不同

评分¶

新颖性: ⭐⭐⭐⭐ — 首个涵盖非二元性别的综合 LLM 公平性指标
技术深度: ⭐⭐⭐⭐ — 七维度指标设计合理，数学定义严谨，均归一化到 [0,1]
实验充分度: ⭐⭐⭐⭐⭐ — 22 个模型、7 个维度、全面的定性和定量分析
实用价值: ⭐⭐⭐⭐⭐ — 直接可用于 LLM 公平性审计和基准测试
写作质量: ⭐⭐⭐⭐ — 结构清晰，图表丰富
综合评分: 8.5/10