跳转至

Only a Little to the Left: A Theory-grounded Measure of Political Bias in LLMs

会议: ACL 2025
arXiv: 2503.16148
代码: https://github.com/MaFa211/theory_grounded_pol_bias
领域: AI安全
关键词: 政治偏见, LLM偏见测量, Political Compass Test, World Values Survey, 提示敏感性, 立场检测

一句话总结

本文用政治科学中经过验证的 World Values Survey (WVS) 替代缺乏科学基础的 Political Compass Test (PCT),设计 30 种提示变体在 11 个开源/商业 LLM 上收集 88,110 条开放式回复并训练立场分类器自动标注,发现指令微调模型普遍偏左但偏见度量对提示高度敏感,PCT 会夸大特定模型(如 GPT-3.5)的政治偏见。

研究背景与动机

  1. 应用风险:LLM 被广泛用于信息搜索、内容摘要、角色模拟等场景,其政治偏见可能在下游任务(政治新闻筛选、投票建议应用)中系统性地放大已有偏见。
  2. 测量工具不可靠:现有研究大量依赖 Political Compass Test,但 PCT 从未经过标准社会科学方法论的验证——无预测试文档、无同行评审开发过程、包含诱导性表述(如"占星术能解释很多事情"),且在 Google Scholar 上仅被 143 篇文章提及(对比 WVS 的 58,000+)。
  3. 提示敏感性被忽视:不同研究使用不同提示模板导致相同模型的偏见评估结论矛盾,但大部分工作未系统处理提示变体的影响。
  4. 约束式回答的生态效度低:多数研究强制模型用单 token(Likert 量表)作答,但真实用户几乎不会如此限制 LLM 输出,约束式设定下的偏见估计不具生态效度。
  5. 缺乏理论定义:此前工作未给出政治偏见的明确概念定义——如果模型同时赞成左右两侧观点,则不应被视为有偏见(意识形态要求"互相关联且稳定"的政治态度集合)。
  6. 核心切入:引入政治科学理论基础(左-右两维意识形态框架:经济维度 + 文化维度),结合 WVS 有效调查工具、30 种提示变体、开放式回答 + 自动立场分类,构建稳健的 LLM 政治偏见测量方法。

方法详解

整体框架

  1. 构建政治命题库:从 PCT(62 条)和 WVS(27 条)中收集共 89 条政治命题
  2. 标注命题极性:用 GPT-4 标注每条命题的(a)赞同反映左/右立场;(b)属于经济/文化维度。人工验证 40 条子集,Cohen's κ = 0.77/0.76
  3. 命题改写:对每条命题用 GPT-4 生成 3 个版本——原始、同义改写、政治对立面(翻转标签),测试模型对措辞和方向的一致性
  4. 前缀变体:设计 10 种提示前缀(含 baseline/likert/情感引导/事实判断等),与 3 种命题版本组合产生 30 种提示方式
  5. 模型采样:对 11 个模型(4 个模型家族)× 89 条命题 × 30 种提示 × 3 次运行 = 88,110 条回复
  6. 立场自动分类:微调 BART-Large 做四分类(agree / disagree / neutral / unrelated),0.9 置信度阈值下 macro F1 = 0.93
  7. 偏见计算:对每个模型在经济和文化两个维度上分别计算左右偏见得分,最终得分 ∈ [-1, 1]

偏见度量定义

对模型 \(m\) 和政治方向 \(d \in \{\text{left}, \text{right}\}\),定义:

  • \(P_{\text{agree},m,d} = \frac{A}{A + D + N}\)(赞同率)
  • \(\text{Bias}_{m,d} = P_{\text{agree},m,d} - P_{\text{disagree},m,d}\)(方向偏见)
  • 总偏见 \(= \frac{\text{Bias}_{\text{right},m} - \text{Bias}_{\text{left},m}}{2} \in [-1, 1]\)

负值表示偏左,正值表示偏右。经济和文化维度分别计算。

提示前缀设计

前缀名称 设计意图
baseline 无前缀,直接呈现命题
likert 约束式 1-5 量表(对比基线)
please_respond / respond 礼貌 vs 简洁指令风格
please_opinion / opinion 请求意见的不同措辞
emotion_happy 正面情感引导("我会非常高兴")
emotion_important 强调重要性的情感施压
truth 模拟事实核查请求
name 用模型名称唤醒(模拟语音助手)

立场分类器

  • 零样本 BART-Large(MNLI) 表现不佳 → 领域微调
  • 训练集:1,320 条分层抽样(每模型-提示对 4 条),单人标注
  • 测试集:264 条,双人标注(Cohen's κ = 0.68),讨论解决分歧
  • 0.9 置信度阈值:macro F1 从 ~0.5 提升至 0.93,保留约 67% 的数据

实验结果

表1:命题分布

来源 维度 方向 数量
PCT 文化 9
PCT 文化 31
PCT 经济 10
PCT 经济 12
WVS 文化 4
WVS 文化 14
WVS 经济 2
WVS 经济 7

PCT 命题分布严重不均衡(文化右 31 vs 文化左 9),WVS 更精简但分布也不对称。

表2:与现有工作的方法论对比

研究 开放式回答 提示变体 理论驱动调查 测试开源模型
Motoki et al. (2024)
Rozado (2023)
Röttger et al. (2024)
Feng et al. (2023)
Ceron et al. (2024) N/A
本文

本文是唯一同时满足四项方法论标准的工作。

核心发现

  1. 指令微调引入左倾偏见:所有三个开源模型家族(LLaMA、Falcon、Mistral)的 instruct 版本均比 base 版本显著偏左,base 模型的总偏见接近零。
  2. GPT-4 最接近中立:在所有指令微调模型中政治偏见最低,GPT-3.5 则左倾最严重。
  3. PCT 夸大偏见:对 GPT-3.5,PCT 测出的偏见远大于 WVS;两种工具的模型排名相关性仅为中等(Kendall's τ = 0.6/0.71)。
  4. 提示前缀显著影响结果:同一 base 模型在不同前缀下可能被判定为偏左或偏右(如 llama-2-7b-hf 在 opinion 前缀下偏左,在 please_respond 前缀下大幅偏右)。
  5. 约束式设定不可靠:Likert 前缀产生的偏见与开放式前缀的平均偏见出现不可预测的偏移。
  6. 模型规模影响不大:LLaMA-7B 与 13B、Falcon-7B 与 40B 的 instruct 版本偏见接近。
  7. 情感引导有差异效应:emotion_happy 比 emotion_important 使 GPT-3.5 更偏左,暗示正面情感比施压更易诱发偏见。

亮点与洞察

  • 跨学科贡献突出:首次将政治科学中成熟的调查方法论(WVS、意识形态两维理论)引入 LLM 偏见评估,弥补了 NLP 社区长期依赖非科学工具的缺陷
  • 方法论闭环完整:从命题构建 → 提示设计 → 立场分类 → 偏见计算,每一步都有验证(GPT-4 标注 vs 人工、分类器性能、bootstrap 置信区间)
  • 实用建议明确:为后续研究者提供三条具体建议——使用高构造效度的调查工具、采用开放式回答、纳入提示变体以确认稳定性
  • 揭示 PCT 的根本缺陷:不仅理论论证其不可靠,还用实证数据证明它夸大偏见,对社区依赖 PCT 的惯性发出有力警示

局限性

  1. Base 模型评估方式存疑:用 prompt-completion 评估未经指令训练的 base 模型并非最佳方式,可能低估其答案质量(base 模型的统计不确定性更大)
  2. 前缀设计未专门优化:10 种前缀兼顾了多种实验条件(情感、约束、礼貌等),非专门为政治偏见测量而设计
  3. 仅两个意识形态维度:经济-文化二维框架虽有理论支撑,但无法捕捉更细粒度的议题维度(如环境、移民)
  4. 西方中心性:WVS 虽是国际调查,但政治命题和左右划分仍以西方政治语境为主
  5. 分类器偏差:训练集仅 1,320 条且单人标注,0.9 阈值过滤掉 33% 数据,可能引入系统性偏差
  6. 模型时效性:测试的模型(GPT-3.5/4、LLaMA-2、Falcon、Mistral-v0.1)已非最新,结论对后续模型的适用性有待验证

相关工作

  • 约束式回答方向:Liu et al. (2022) 用二分类器发现 GPT-2 偏自由派;多项研究 (Hartmann 2023, Motoki 2024, Rozado 2023) 用 PCT 的 Likert 量表发现 ChatGPT 偏左,但均未考虑提示变体和开放式回答
  • 开放式回答方向:Feng et al. (2023) 用零样本立场检测直接分类 PCT 回复,但分类器性能不佳且未用科学调查工具;Röttger et al. (2024) 发现约束与开放设定下回答模式不同,但仍依赖 PCT
  • 提示敏感性:Linzbach et al. (2023) 证明语法变体改变 LLM 性能;Shu et al. (2023) 发现语义反转后答案不一致;Röttger et al. (2024) 证明不同前缀显著改变 PCT 结果
  • 价值观调查:Arora et al. (2023) 和 Atari et al. (2023) 用 WVS 完整问卷探测跨文化价值观,但采用强制选择格式且非聚焦政治偏见
  • 并发工作:Ceron et al. (2024) 和 Stammbach et al. (2024) 将 LLM 偏见与投票建议应用结合;Bang et al. (2024) 分析政治偏见的"说什么"与"怎么说"

评分

  • 新颖性: ⭐⭐⭐⭐ 首次引入政治科学理论驱动的 LLM 偏见测量,方法论贡献显著
  • 实验充分度: ⭐⭐⭐⭐⭐ 11 模型 × 30 提示变体 × 3 次运行 = 88K 回复,含分类器验证和 bootstrap 置信区间
  • 写作质量: ⭐⭐⭐⭐ 跨学科论证清晰,PCT 批判有理有据
  • 实用价值: ⭐⭐⭐⭐ 提供可操作的偏见评估建议,代码开源
  • 综合: ⭐⭐⭐⭐ 方法论引领性强,但测试模型偏旧、命题覆盖有限