Veracity Bias and Beyond: Uncovering LLMs' Hidden Beliefs in Problem-Solving Reasoning¶
会议: ACL 2025
arXiv: 2505.16128
代码: 无
领域: LLM推理
关键词: Veracity Bias, 人口统计偏见, 推理公平性, LLM评估偏差, 归因偏差
一句话总结¶
揭示了 LLM 在推理任务中存在"真实性偏见"(Veracity Bias)——尽管显式对齐反对刻板印象,LLM 仍系统性地将正确答案归因于特定种族群体(归因偏差),并对相同解答因"作者"种族不同给出不同评价(评估偏差),在数学、编程、常识推理和写作任务中普遍存在。
研究背景与动机¶
- 领域现状:LLM 已通过后训练对齐来避免人口统计学偏见和刻板印象。当直接被问及不同种族的智力差异时,模型会拒绝回答或明确表示这种刻板印象不当。
- 现有痛点:此前研究发现这种对齐是表面的——通过角色扮演(persona设定)或社会情境触发(social context provocation),可以暴露出隐藏的偏见。但这些方法需要特殊的提示设计来"诱导"偏见。
- 核心矛盾:LLM 在预训练数据中不可避免地接触到社会偏见,当它们发展出越来越强的推理能力时,是否已经在内部将"答案正确性"与"人口统计学特征"关联起来了?
- 本文要解决什么? 不通过社会情境诱导,而是直接通过问题解决(推理任务)来检测 LLM 是否存在将解答正确性与种族/性别关联的隐性偏见。
- 切入角度:设计两类实验——归因(给定正确/错误答案,问模型这是哪个群体的答案)和评估(相同答案标注不同群体,观察评分变化)。
- 核心idea一句话:LLM在推理任务中的真实性判断与人口统计学特征之间存在系统性关联,这种"Veracity Bias"超越了表面对齐,深嵌于模型的推理过程中。
方法详解¶
整体框架¶
设计两类偏见检测实验: - 归因偏差(Attribution Bias):给LLM一对解答(一正确一错误),要求将它们归因到不同的人口统计群体 - 评估偏差(Evaluation Bias):给LLM相同的解答但标注为不同群体的"作者",观察评价是否变化
关键设计¶
- 归因实验(Attribution):
- 做什么:呈现[问题][正确解答][错误解答],要求LLM从选项中为每个解答选择"作者"的人口统计群体
- 两种模式:(a) 直接标签——"an Asian student, a Black student, a White student";(b) 名字代理——使用各群体最常见的名字
- 核对项目:只选择LLM在不同温度下都能可靠判断正误的"可解题"(solvable),排除模型不确定性的干扰
-
设计动机:如果模型无偏见,正确/错误解答的归因应在各群体间均匀分布
-
评估实验(Evaluation):
- 做什么:呈现[问题][解答]并标注"作者"身份(如 "Camila, Ethnicity: Hispanic"),要求LLM评估解答正确性
- 对照组:随机中性placeholder(如XXXXX, [NAME]),用于区分人口统计驱动的偏差vs模型固有随机性
-
覆盖领域:数学、编程使用二元评分,写作使用1-6分量表
-
度量指标:
- \(AB_{cor}\):正确归因偏差——哪个群体被分配正确答案的概率最高
- \(AB_{inc}\):错误归因偏差——哪个群体被分配错误答案的概率最高
- \(EI\):评估不一致性——同一解答在不同群体间被不同评价的比例
-
\(EP\):评估偏好——最大成对评估偏差概率
-
推理对偏见的影响:
- 测试三种输出格式:无推理(NR)、短推理(SR, <100词)、长推理(LR, >200词)
- 发现:推理可以减少归因偏差但不能减少评估偏差且推理过程可能与最终归因决策不一致
实验设置¶
- 5个模型:GPT-3.5-turbo, GPT-4o, Claude-3 Sonnet, Gemini-1.5-Pro, LLaMA-3-8B
- 6个数据集:GSM8K, MATH, HumanEval, CommonsenseQA, ARC-Easy, ASAP-AES
- 温度=0确保近似确定性输出
- 每个基准100个可解题
实验关键数据¶
归因偏差主实验(种族维度)¶
| 模型 | 数学-正确偏向 | 数学-错误偏向 | 编程-正确偏向 | 编程-错误偏向 |
|---|---|---|---|---|
| GPT-4o | 14% (Asian) | 21% (Black) | 57% (Asian) | 46% (White) |
| GPT-3.5 | 60% (White) | 36% (Black) | 10% (Asian) | 10% (Black) |
| Claude-3 | 14% (White) | 20% (Black) | 18% (Asian) | 28% (Black) |
| Gemini | 22% (White) | 28% (Black) | 28% (Asian) | 42% (Black) |
| LLaMA-3 | 36% (White) | 38% (Black) | 22% (Asian) | 16% (White) |
关键统计数据¶
| 发现 | 数据 |
|---|---|
| GPT-3.5在GSM8K中 | 82%的正确答案归因于White群体 |
| Black群体 | 在所有模型的数学和编程中,正确答案归因率最低 |
| 写作评估中 | Hispanic作者的论文比Asian作者的得分更高 |
| 性别偏差 | 普遍弱于种族偏差,Claude几乎无性别偏差 |
| GPT-4o拒绝率 | 数学14%、编程28%拒绝回答(唯一有拒绝行为的模型) |
关键发现¶
- Black群体一致性最差:在数学和编程中,所有模型都倾向于将更少的正确答案和更多的错误答案归因于Black群体
- 领域特异性:White群体在数学中被偏好,Asian群体在编程中被偏好——反映了社会刻板印象
- 名字代理同样有效:使用种族关联的名字而非直接标签,偏见模式类似,且没有模型拒绝回答
- 推理不一致:模型在推理过程中可能明确说"不应该有偏见",但最终归因仍然有偏
- 颜色刻板印象:让LLM写可视化代码时,会自动为不同种族分配刻板化颜色(如Black→黑色系)
亮点与洞察¶
- 偏见检测的新维度:不依赖社会情境诱导,直接从问题解决/推理能力角度检测偏见,这是一个全新的视角。偏见可能比我们想象的更深——嵌入在模型的"什么是正确的"判断中
- 推理加剧不一致的发现:模型在推理过程中表现出"知道不应该有偏见"但行为仍然有偏,说明对齐仅影响了表面输出而非内部信念
- 教育应用警示:如果LLM被用于评分或反馈,这种偏见可能系统性地不利于特定人口群体
局限性 / 可改进方向¶
- 仅覆盖种族(三组)和性别(二元),未探索更细粒度的人口统计学维度
- 实验仅在英语语境下进行
- 主要使用2024年初的模型版本,最新对齐技术的效果未知
- 未深入分析偏见的注意力/表示层来源
相关工作与启发¶
- vs BBQ (Parrish et al. 2022): BBQ 通过模糊场景测试偏见,本文通过真实性判断测试,更贴近推理场景
- vs Gupta et al. 2024: 他们通过 persona 设定暴露偏见,本文证明无需 persona 即可观察到推理偏见
- 与RLHF对齐的关系: 说明当前对齐技术主要消除了surface-level输出偏见,但未消除推理过程中的隐性关联
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 提出"Veracity Bias"概念,从推理正确性角度检测偏见,视角全新
- 实验充分度: ⭐⭐⭐⭐ 跨5个模型、6个数据集、多种设置,但缺少最新模型对比
- 写作质量: ⭐⭐⭐⭐ 结构清晰,发现呈现条理分明
- 价值: ⭐⭐⭐⭐⭐ 对LLM在教育/评估场景的部署有重要警示意义