跳转至

Aligned but Blind: Alignment Increases Implicit Bias by Reducing Awareness of Race

会议: ACL 2025
arXiv: 2506.00253
代码: https://github.com/slhleosun/aligned-but-blind
领域: LLM 对齐 / 偏见分析
关键词: implicit bias, race blindness, alignment side-effect, activation patching, bias mitigation, LoRA intervention

一句话总结

揭示对齐训练的"种族盲视"副作用:对齐使 LLM 在歧义上下文中不再将 black/white 表征为种族概念,安全护栏因此无法激活,导致隐式偏见从 64.1% 飙升至 91.4%;反直觉地,在早期层注入种族感知激活(而非遗忘)可将隐式偏见从 97.3% 降至 42.4%。

研究背景与动机

  1. 对齐训练的偏见消除承诺:RLHF/DPO 等后训练对齐的核心目标之一是让模型公平无偏,对齐后的模型在显式偏见评估中确实表现优异——拒绝歧视性请求、避免刻板语言,显式偏见率降至约 8%。
  2. 隐式偏见的顽固存在:多项研究(Hofmann et al. 2024; Bai et al. 2025)发现,对齐的 LLM 在隐式联想测试(IAT 改编)中仍展现系统性种族刻板印象,在不直接提及种族的语境中将 black 与负面属性关联。
  3. 显式与隐式偏见的矛盾缺乏机制解释:对齐减少了显式偏见但可能放大隐式偏见,这一矛盾此前缺乏从模型内部表示层面的机制性解释。
  4. 人类心理学的"种族盲视"类比:心理学研究表明,人类试图完全忽略种族的策略(color-blindness)反而延续微妙偏见(Apfelbaum et al. 2012),因为无法意识到种族差异就无法进行公平修正。
  5. 机械可解释性工具的成熟:激活修补(activation patching)、SelfIE 等方法使得从 Transformer 内部表示层面分析多义词编码成为可能,为理解偏见机制提供了技术基础。
  6. 传统去偏范式的局限性:现有偏见缓解方法多采用"遗忘/去除"策略(machine unlearning),本文探索一个反直觉方向——"增强种族意识"是否能更有效地减少隐式偏见。

方法详解

整体框架

研究分三阶段推进:(1) 行为实验——设计 9,232 条配对提示,系统量化对齐前后的显式/隐式偏见水平;(2) 机制分析——通过激活修补和 SelfIE 在模型内部表示空间解释"种族盲视"现象;(3) 干预实验——通过嵌入注入和 LoRA 微调验证"增强种族意识→减少隐式偏见"的因果假说。

关键设计

1. 提示设计与偏见度量

设计显式/隐式配对提示,严格控制 token 长度、词序、措辞、响应格式,仅变化隐式性水平。隐式提示要求模型在 black/white 与 wallet/revolver 等刺激词之间做联想;显式提示则直接询问模型是否同意"black 与 revolver 相关"。每个提示生成 4 个变体(探针词和刺激词的排列),共 9,232 条。

偏见度量定义为平均偏见标签:

\[\hat{p}_{\text{bias}}^{\text{race}} = \frac{1}{|\mathcal{I}_{\text{bias}}|} \sum_{i \in \mathcal{I}_{\text{bias}}} Y_i^{\text{race}}\]

其中 \(Y_i^{\text{race}} \in \{0, 1\}\) 表示模型响应是否展现对特定种族的偏见。理想的无偏模型应在隐式测试中给出约 50% 的随机分配。

2. 激活修补量化种族盲视(Race Blind Score)

核心思路:将模型在隐式联想提示中对 black/white 的内部激活,修补到一个解释性提示 "What does [MASK] refer to? Choose one: race or color." 中,观察修补后模型输出 race vs color 的概率变化。

定义 Race Blind Score:

\[r_{\text{blind}} = \Delta P_{\text{color}} - \Delta P_{\text{race}}\]

其中 \(\Delta P_{\text{race}} = \frac{1}{L} \sum_{\ell} (P_{\text{patched}}^{\ell}(\text{race}) - P_{\text{baseline}}(\text{race}))\)\(\Delta P_{\text{color}}\) 类似定义。

\(r_{\text{blind}} > 0\) 表示模型更倾向将 black/white 理解为颜色(种族盲视),\(r_{\text{blind}} < 0\) 表示模型保持种族意识。

3. SelfIE 自然语言可视化

使用 SelfIE(Self-Interpretation of Embeddings)让模型自行解释其内部嵌入,将 black/white 的激活映射为自然语言描述,统计解释中"种族相关"vs"颜色相关"的频率。对齐模型比基础模型产生了 74.4% 更少的种族相关解释。

4. 嵌入干预(Activation Engineering)

从明确种族上下文 "Race: black and white." 中缓存种族概念的激活向量,在隐式偏见提示的前向传播中替换 black/white 在目标层的激活。以 10 层为窗口滑动测试不同层的干预效果。

5. 权重干预(LoRA 微调)

策划 431 条输入-输出样本,输入为歧义上下文中的 black/white 用法,输出为明确种族相关的事实陈述。对自注意力中 query 和 value 投影应用 LoRA,分别在早期层(1-20)、晚期层(21-32)、全层(1-32)微调。

训练策略

激活注入为推理时无训练干预。LoRA 微调使用标准语言模型损失(next-token prediction),在 431 条种族感知样本上训练,参数仅作用于指定层的 QV 投影,最大可减少 62.5% 的 LoRA 参数量。

实验与结果

实验一:对齐前后的偏见行为对比

模型 显式偏见 \(\hat{p}_{\text{explicit}}^{\text{black}}\) 隐式偏见 \(\hat{p}_{\text{implicit}}^{\text{black}}\)
Llama 3 70B Base 49.6% 64.1%
Llama 3 70B Instruct 8.13% 91.4%

对齐将显式偏见从 49.6% 降至 8.13%(\(b=0.415, p<.001\)),但将隐式偏见从 64.1% 升至 91.4%(\(b=0.273, p<.001\))。使用种族名字(如 DeShawn/Jake)时隐式偏见降至 38.5%,使用颜色前缀时仍为 93.6%——说明歧义性是关键。

实验二:干预效果对比

方法 隐式偏见 降幅 显式偏见
Baseline(8B Instruct) 97.3% 61.1%
激活注入(早期层 5-14) 71.2% -26.1pp
LoRA(早期层 1-20) 42.3% -55.0pp 11.5% ↓
LoRA(晚期层 21-32) 58.7% -38.6pp 15.1% ↓
LoRA(全层 1-32) 51.3% -46.0pp 0.5%

早期层 LoRA 干预效果最强(\(b=0.549, p<.001\)),且比全层 LoRA 更稳定(置信区间 11.9% vs 21.3%)。全层 LoRA 在降低显式偏见上最彻底(降至 0.5%),但指令跟随能力下降(17% 响应出现格式问题)。

关键发现

  • 对齐放大隐式偏见:Llama 3 70B 对齐后隐式偏见上升 27.3 个百分点,在 8B 上也复现了同样趋势。这是一个系统性的对齐副作用。
  • 种族盲视是根本机制:对齐模型的 Race Blind Score 为 0.188(基础模型 -0.022),说明对齐训练使模型在歧义上下文中将 black/white 编码为颜色而非种族,安全护栏因此无法触发。
  • 早期层是种族编码的关键位置:激活修补显示种族概念主要在 Transformer 前 1/3 层编码,干预早期层效果远优于晚期层(偏见降低 55.0pp vs 38.6pp)。
  • "增强意识"优于"遗忘去除":LoRA 微调让模型更有种族意识后,隐式偏见从 97.3% 降至 42.3%,且显式偏见同步下降——说明种族意识和公平行为不矛盾。
  • 歧义性是偏见爆发的触发条件:当提示中包含种族名字时,即使在隐式联想中对齐模型也能激活安全护栏(38.5%),但 black/white 本身的多义性绕过了安全检测。

亮点

  • 揭示了对齐的核心矛盾:对齐使显式偏见更安全但隐式偏见更危险,这对整个 AI Safety 社区是重要警示
  • 精准的人类心理学类比——LLM 的"种族盲视"与人类 color-blindness 理论完美对应,提供了跨学科解释力
  • 颠覆传统去偏范式:有效的偏见缓解不是让模型忘记种族概念,而是让模型在感知种族的同时做出公平判断
  • Race Blind Score 可作为通用指标监控对齐方法的偏见副作用
  • 方法论上将心理学实验范式(IAT)、机械可解释性(activation patching, SelfIE)和因果干预(LoRA)三条线索统一

局限性

  • 仅聚焦美国文化背景下的黑白种族偏见,性别、宗教、国籍等其他维度是否有类似"盲视→偏见"效应未验证
  • 隐式偏见测量依赖特定评估框架(IAT 改编、BBQ),不同评估方法可能给出不同结论
  • 仅在 Llama 3 系列(8B、70B)上验证,其他架构(Qwen、Mistral、GPT 系列)情况未知
  • LoRA 干预的 431 条训练数据规模较小,数据质量和覆盖范围可能影响泛化效果
  • 干预对指令跟随能力有副作用——全层 LoRA 导致 17% 的响应出现格式问题
  • 机械可解释性结论受模型架构、解释方法和人为概念定义的约束,存在过度解读风险

相关工作

  • LLM 显式-隐式偏见差异:Hofmann et al. 2024 和 Bai et al. 2025 首次系统展示对齐模型在隐式联想中的偏见,但未提供机制解释
  • 激活修补与机械可解释性:Wang et al. 2022(IOI 电路)、Meng et al. 2023(ROME 知识编辑)提供了激活修补框架,本文创新性地用于多义词的概念归属分析
  • 偏见缓解方法:Dige et al. 2024 通过 unlearning 去除偏见相关神经元,Marks et al. 2024 用特征消融去偏——本文提出反向策略
  • 激活工程:Turner et al. 2024 和 Panickssery et al. 2024 的 steering vector 方法,本文将其适配为种族概念注入
  • SelfIE:Chen et al. 2024 提出的嵌入自解释方法,本文用于可视化验证种族盲视现象

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 揭示对齐的"种族盲视"副作用,提出"增强意识而非遗忘"的反直觉去偏范式
  • 技术深度: ⭐⭐⭐⭐ — 激活修补+SelfIE+LoRA 三重验证,因果推断链条完整
  • 实验说服力: ⭐⭐⭐⭐ — 9,232 条控制提示、多维度消融、统计检验充分,但仅限 Llama 3 单系列
  • 实用价值: ⭐⭐⭐⭐ — Race Blind Score 和早期层干预策略有直接工程应用价值
  • 综合推荐: ⭐⭐⭐⭐⭐ — 对 AI Safety 研究方向有重要影响,实验-机制-干预的闭环论证堪称典范