Veracity Bias and Beyond: Uncovering LLMs' Hidden Beliefs in Problem-Solving Reasoning¶

会议: ACL 2025
arXiv: 2505.16128
代码: 无
领域: LLM推理
关键词: Veracity Bias, 人口统计偏见, 推理公平性, LLM评估偏差, 归因偏差

一句话总结¶

揭示了 LLM 在推理任务中存在"真实性偏见"（Veracity Bias）——尽管显式对齐反对刻板印象，LLM 仍系统性地将正确答案归因于特定种族群体（归因偏差），并对相同解答因"作者"种族不同给出不同评价（评估偏差），在数学、编程、常识推理和写作任务中普遍存在。

领域现状：LLM 已通过后训练对齐来避免人口统计学偏见和刻板印象。当直接被问及不同种族的智力差异时，模型会拒绝回答或明确表示这种刻板印象不当。
现有痛点：此前研究发现这种对齐是表面的——通过角色扮演（persona设定）或社会情境触发（social context provocation），可以暴露出隐藏的偏见。但这些方法需要特殊的提示设计来"诱导"偏见。
核心矛盾：LLM 在预训练数据中不可避免地接触到社会偏见，当它们发展出越来越强的推理能力时，是否已经在内部将"答案正确性"与"人口统计学特征"关联起来了？
本文要解决什么？ 不通过社会情境诱导，而是直接通过问题解决（推理任务）来检测 LLM 是否存在将解答正确性与种族/性别关联的隐性偏见。
切入角度：设计两类实验——归因（给定正确/错误答案，问模型这是哪个群体的答案）和评估（相同答案标注不同群体，观察评分变化）。
核心idea一句话：LLM在推理任务中的真实性判断与人口统计学特征之间存在系统性关联，这种"Veracity Bias"超越了表面对齐，深嵌于模型的推理过程中。

设计两类偏见检测实验： - 归因偏差（Attribution Bias）：给LLM一对解答（一正确一错误），要求将它们归因到不同的人口统计群体 - 评估偏差（Evaluation Bias）：给LLM相同的解答但标注为不同群体的"作者"，观察评价是否变化

归因实验（Attribution）:
做什么：呈现[问题][正确解答][错误解答]，要求LLM从选项中为每个解答选择"作者"的人口统计群体
两种模式：(a) 直接标签——"an Asian student, a Black student, a White student"；(b) 名字代理——使用各群体最常见的名字
核对项目：只选择LLM在不同温度下都能可靠判断正误的"可解题"（solvable），排除模型不确定性的干扰
设计动机：如果模型无偏见，正确/错误解答的归因应在各群体间均匀分布
评估实验（Evaluation）:
做什么：呈现[问题][解答]并标注"作者"身份（如 "Camila, Ethnicity: Hispanic"），要求LLM评估解答正确性
对照组：随机中性placeholder（如XXXXX, [NAME]），用于区分人口统计驱动的偏差vs模型固有随机性
覆盖领域：数学、编程使用二元评分，写作使用1-6分量表
度量指标:
\(AB_{cor}\)：正确归因偏差——哪个群体被分配正确答案的概率最高
\(AB_{inc}\)：错误归因偏差——哪个群体被分配错误答案的概率最高
\(EI\)：评估不一致性——同一解答在不同群体间被不同评价的比例
\(EP\)：评估偏好——最大成对评估偏差概率
推理对偏见的影响:
测试三种输出格式：无推理(NR)、短推理(SR, <100词)、长推理(LR, >200词)
发现：推理可以减少归因偏差但不能减少评估偏差且推理过程可能与最终归因决策不一致

模型	数学-正确偏向	数学-错误偏向	编程-正确偏向	编程-错误偏向
GPT-4o	14% (Asian)	21% (Black)	57% (Asian)	46% (White)
GPT-3.5	60% (White)	36% (Black)	10% (Asian)	10% (Black)
Claude-3	14% (White)	20% (Black)	18% (Asian)	28% (Black)
Gemini	22% (White)	28% (Black)	28% (Asian)	42% (Black)
LLaMA-3	36% (White)	38% (Black)	22% (Asian)	16% (White)

发现	数据
GPT-3.5在GSM8K中	82%的正确答案归因于White群体
Black群体	在所有模型的数学和编程中，正确答案归因率最低
写作评估中	Hispanic作者的论文比Asian作者的得分更高
性别偏差	普遍弱于种族偏差，Claude几乎无性别偏差
GPT-4o拒绝率	数学14%、编程28%拒绝回答（唯一有拒绝行为的模型）

偏见检测的新维度：不依赖社会情境诱导，直接从问题解决/推理能力角度检测偏见，这是一个全新的视角。偏见可能比我们想象的更深——嵌入在模型的"什么是正确的"判断中
推理加剧不一致的发现：模型在推理过程中表现出"知道不应该有偏见"但行为仍然有偏，说明对齐仅影响了表面输出而非内部信念
教育应用警示：如果LLM被用于评分或反馈，这种偏见可能系统性地不利于特定人口群体