跳转至

Bias in Language Models: Beyond Trick Tests and Towards RUTEd Evaluation

会议: ACL 2025
arXiv: 2402.12649
领域: LLM 公平性与偏见评估
关键词: 语言模型偏见, 公平性基准, 性别-职业偏见, RUTEd评估, 去语境化评估

一句话总结

通过对比标准偏见基准("trick tests")与基于真实使用场景的 RUTEd 评估,发现标准偏见基准与真实场景中的偏见表现无显著相关性,主张偏见评估应面向具体应用场景。

研究背景与动机

随着 LLM 在日常生活中的广泛应用,关于模型伦理影响的担忧催生了大量偏见和公平性基准测试。标准偏见基准通常测量敏感属性(如性别代词)与社会属性(如职业)之间的关联,输入输出都很简短,例如测量"Nurse is"后面跟男性或女性关联词的概率。

然而,这些基准存在根本问题: - 被批评存在未明确的假设、缺乏动机和概念性问题 - 与真实世界的 LLM 使用场景脱节——真实交互通常需要长文本生成 - 先前研究已发现内在指标难以预测外在指标,但即使是外在指标也可能无法反映真实使用中的偏见

作者将标准基准称为"trick tests"(诡计测试),即去语境化的评估,通过人为构造的场景引出模型与敏感属性的简单关联,而非估计模型真实使用的影响。

方法详解

整体框架

提出 RUTEd(Realistic Use and Tangible Effects) 评估框架,与标准去语境化基准形成对比:

  1. 标准基准:基于 BIG-bench Gender Sensitivity 任务,输入"{occupation} is",计算下一个词为男性/女性关联词集合的概率
  2. RUTEd 评估:设计三个基于真实使用场景的长文本生成任务

三个 RUTEd 任务: - 儿童睡前故事:生成关于某职业的儿童故事(最大 1000 tokens) - 用户画像(Personas):生成某职业从业者的用户画像(最大 150 tokens) - ESL 英语学习练习:生成包含某职业人物的英语教学段落(最大 100 tokens)

关键设计

三个偏见度量指标:

  1. Neutrality(中性度)\(m^{neutrality} = \frac{1}{O}\sum_o |p_o^m - p_o^f|\),衡量偏离性别平等的程度
  2. Skew(偏斜度)\(m^{skew} = \frac{1}{O}\sum_o (p_o^m - p_o^f)\),衡量模型系统性地倾向男性或女性输出
  3. Stereotype(刻板印象)\(m^{stereotype} = \frac{1}{O}\sum_o (p_o^s - p_o^a)\),衡量生成内容符合性别刻板印象的程度

实验在 9 个 LLM 上进行:Llama-2(7B/13B/70B)、Flan-PaLM(XS/S/M/L)、GPT-4、Mixtral-8x7B。每个职业生成 30-64 次重复。

实验关键数据

主实验

标准基准与 RUTEd 评估的 Spearman 秩相关性:

Neutrality Skew Stereotype
Bedtime Stories -0.07 0.57 0.36
User Personas -0.25 0.54 -0.36
ESL Exercises 0.18 -0.39 0.54

9 个相关系数的平均值仅为 0.12,最小值 -0.39,最大值 0.57。

三个 RUTEd 任务之间的平均秩相关:

任务对 相关性
Bedtime ↔ Personas 0.042
Bedtime ↔ ESL 0.057
Personas ↔ ESL 0.183

关键发现

  1. 标准基准完全无法预测 RUTEd 评估:如果用标准基准选择"最公平"的模型,其结果与随机选择无异(在 Llama-2 三个尺寸中,标准基准判定 13B 最公平,但在 9 个 RUTEd 评估中仅 3 个一致——恰好等于随机概率)
  2. 不同 RUTEd 任务之间也缺乏相关性:在一个场景中偏见较小的模型,在另一个场景中未必如此
  3. 偏见是高度场景依赖的:不存在一个通用的"无偏见"模型排序
  4. 标准基准的提示变体鲁棒性检查:在 10 个不同的标准基准提示模板和 30 个 RUTEd 提示模板下,结论保持一致

亮点与洞察

  1. 概念贡献突出:RUTEd 框架清晰地将偏见评估从"测量模型内部属性"转向"测量实际使用影响"
  2. 实验设计严谨:引入多种鲁棒性检验(按职业分解、模式坍缩检测、提示变异分析)
  3. 挑战了领域共识:不仅内在指标无法预测外在指标(已知),连外在指标也无法预测更真实的使用场景表现(新发现)
  4. 实践启示强烈:当 BBQ 等标准基准被 Google、Anthropic 等用于模型评估时,本文质疑了这种做法的有效性

局限性

  • 仅研究了性别-职业偏见这一最常见的偏见类型,对种族、社会经济地位等其他维度可能有不同结论
  • RUTEd 评估虽比标准基准更贴近真实使用,但仍未经真正的用户研究验证
  • 限于二元性别框架,未涵盖非二元性别
  • 仅测试了 9 个模型,更大规模的模型评估可能揭示不同模式
  • 三个 RUTEd 场景之间的不相关性意味着全面的偏见评估成本很高

相关工作

  • WEAT / CEAT:静态/上下文化词嵌入关联测试,早期的内在偏见指标
  • BBQ 基准:问答中的偏见基准,被 Google 和 Anthropic 使用
  • StereoSet:衡量刻板印象关联的基准
  • WinoBias:共指消解中的性别偏见数据集,本文使用其 40 个职业
  • Goldfarb-Tarrant et al. (2020):最早探讨内在-外在偏见指标相关性的工作

评分

  • 创新性: ⭐⭐⭐⭐ — RUTEd 框架概念新颖,对领域提出了重要质疑
  • 实用性: ⭐⭐⭐⭐⭐ — 直接影响行业偏见评估实践,警示了盲目依赖标准基准的风险
  • 实验充分度: ⭐⭐⭐⭐ — 多模型、多指标、多鲁棒性检验,但偏见维度覆盖有限
  • 写作质量: ⭐⭐⭐⭐⭐ — 论证严密,概念清晰,结构优秀