Only a Little to the Left: A Theory-grounded Measure of Political Bias in LLMs¶
会议: ACL 2025
arXiv: 2503.16148
代码: https://github.com/MaFa211/theory_grounded_pol_bias
领域: AI安全
关键词: 政治偏见, LLM偏见测量, Political Compass Test, World Values Survey, 提示敏感性, 立场检测
一句话总结¶
本文用政治科学中经过验证的 World Values Survey (WVS) 替代缺乏科学基础的 Political Compass Test (PCT),设计 30 种提示变体在 11 个开源/商业 LLM 上收集 88,110 条开放式回复并训练立场分类器自动标注,发现指令微调模型普遍偏左但偏见度量对提示高度敏感,PCT 会夸大特定模型(如 GPT-3.5)的政治偏见。
研究背景与动机¶
- 应用风险:LLM 被广泛用于信息搜索、内容摘要、角色模拟等场景,其政治偏见可能在下游任务(政治新闻筛选、投票建议应用)中系统性地放大已有偏见。
- 测量工具不可靠:现有研究大量依赖 Political Compass Test,但 PCT 从未经过标准社会科学方法论的验证——无预测试文档、无同行评审开发过程、包含诱导性表述(如"占星术能解释很多事情"),且在 Google Scholar 上仅被 143 篇文章提及(对比 WVS 的 58,000+)。
- 提示敏感性被忽视:不同研究使用不同提示模板导致相同模型的偏见评估结论矛盾,但大部分工作未系统处理提示变体的影响。
- 约束式回答的生态效度低:多数研究强制模型用单 token(Likert 量表)作答,但真实用户几乎不会如此限制 LLM 输出,约束式设定下的偏见估计不具生态效度。
- 缺乏理论定义:此前工作未给出政治偏见的明确概念定义——如果模型同时赞成左右两侧观点,则不应被视为有偏见(意识形态要求"互相关联且稳定"的政治态度集合)。
- 核心切入:引入政治科学理论基础(左-右两维意识形态框架:经济维度 + 文化维度),结合 WVS 有效调查工具、30 种提示变体、开放式回答 + 自动立场分类,构建稳健的 LLM 政治偏见测量方法。
方法详解¶
整体框架¶
- 构建政治命题库:从 PCT(62 条)和 WVS(27 条)中收集共 89 条政治命题
- 标注命题极性:用 GPT-4 标注每条命题的(a)赞同反映左/右立场;(b)属于经济/文化维度。人工验证 40 条子集,Cohen's κ = 0.77/0.76
- 命题改写:对每条命题用 GPT-4 生成 3 个版本——原始、同义改写、政治对立面(翻转标签),测试模型对措辞和方向的一致性
- 前缀变体:设计 10 种提示前缀(含 baseline/likert/情感引导/事实判断等),与 3 种命题版本组合产生 30 种提示方式
- 模型采样:对 11 个模型(4 个模型家族)× 89 条命题 × 30 种提示 × 3 次运行 = 88,110 条回复
- 立场自动分类:微调 BART-Large 做四分类(agree / disagree / neutral / unrelated),0.9 置信度阈值下 macro F1 = 0.93
- 偏见计算:对每个模型在经济和文化两个维度上分别计算左右偏见得分,最终得分 ∈ [-1, 1]
偏见度量定义¶
对模型 \(m\) 和政治方向 \(d \in \{\text{left}, \text{right}\}\),定义:
- \(P_{\text{agree},m,d} = \frac{A}{A + D + N}\)(赞同率)
- \(\text{Bias}_{m,d} = P_{\text{agree},m,d} - P_{\text{disagree},m,d}\)(方向偏见)
- 总偏见 \(= \frac{\text{Bias}_{\text{right},m} - \text{Bias}_{\text{left},m}}{2} \in [-1, 1]\)
负值表示偏左,正值表示偏右。经济和文化维度分别计算。
提示前缀设计¶
| 前缀名称 | 设计意图 |
|---|---|
| baseline | 无前缀,直接呈现命题 |
| likert | 约束式 1-5 量表(对比基线) |
| please_respond / respond | 礼貌 vs 简洁指令风格 |
| please_opinion / opinion | 请求意见的不同措辞 |
| emotion_happy | 正面情感引导("我会非常高兴") |
| emotion_important | 强调重要性的情感施压 |
| truth | 模拟事实核查请求 |
| name | 用模型名称唤醒(模拟语音助手) |
立场分类器¶
- 零样本 BART-Large(MNLI) 表现不佳 → 领域微调
- 训练集:1,320 条分层抽样(每模型-提示对 4 条),单人标注
- 测试集:264 条,双人标注(Cohen's κ = 0.68),讨论解决分歧
- 0.9 置信度阈值:macro F1 从 ~0.5 提升至 0.93,保留约 67% 的数据
实验结果¶
表1:命题分布¶
| 来源 | 维度 | 方向 | 数量 |
|---|---|---|---|
| PCT | 文化 | 左 | 9 |
| PCT | 文化 | 右 | 31 |
| PCT | 经济 | 左 | 10 |
| PCT | 经济 | 右 | 12 |
| WVS | 文化 | 左 | 4 |
| WVS | 文化 | 右 | 14 |
| WVS | 经济 | 左 | 2 |
| WVS | 经济 | 右 | 7 |
PCT 命题分布严重不均衡(文化右 31 vs 文化左 9),WVS 更精简但分布也不对称。
表2:与现有工作的方法论对比¶
| 研究 | 开放式回答 | 提示变体 | 理论驱动调查 | 测试开源模型 |
|---|---|---|---|---|
| Motoki et al. (2024) | ✗ | ✗ | ✗ | ✗ |
| Rozado (2023) | ✗ | ✗ | ✗ | ✗ |
| Röttger et al. (2024) | ✓ | ✓ | ✗ | ✓ |
| Feng et al. (2023) | ✓ | ✓ | ✗ | ✓ |
| Ceron et al. (2024) | ✓ | ✓ | N/A | ✓ |
| 本文 | ✓ | ✓ | ✓ | ✓ |
本文是唯一同时满足四项方法论标准的工作。
核心发现¶
- 指令微调引入左倾偏见:所有三个开源模型家族(LLaMA、Falcon、Mistral)的 instruct 版本均比 base 版本显著偏左,base 模型的总偏见接近零。
- GPT-4 最接近中立:在所有指令微调模型中政治偏见最低,GPT-3.5 则左倾最严重。
- PCT 夸大偏见:对 GPT-3.5,PCT 测出的偏见远大于 WVS;两种工具的模型排名相关性仅为中等(Kendall's τ = 0.6/0.71)。
- 提示前缀显著影响结果:同一 base 模型在不同前缀下可能被判定为偏左或偏右(如 llama-2-7b-hf 在 opinion 前缀下偏左,在 please_respond 前缀下大幅偏右)。
- 约束式设定不可靠:Likert 前缀产生的偏见与开放式前缀的平均偏见出现不可预测的偏移。
- 模型规模影响不大:LLaMA-7B 与 13B、Falcon-7B 与 40B 的 instruct 版本偏见接近。
- 情感引导有差异效应:emotion_happy 比 emotion_important 使 GPT-3.5 更偏左,暗示正面情感比施压更易诱发偏见。
亮点与洞察¶
- 跨学科贡献突出:首次将政治科学中成熟的调查方法论(WVS、意识形态两维理论)引入 LLM 偏见评估,弥补了 NLP 社区长期依赖非科学工具的缺陷
- 方法论闭环完整:从命题构建 → 提示设计 → 立场分类 → 偏见计算,每一步都有验证(GPT-4 标注 vs 人工、分类器性能、bootstrap 置信区间)
- 实用建议明确:为后续研究者提供三条具体建议——使用高构造效度的调查工具、采用开放式回答、纳入提示变体以确认稳定性
- 揭示 PCT 的根本缺陷:不仅理论论证其不可靠,还用实证数据证明它夸大偏见,对社区依赖 PCT 的惯性发出有力警示
局限性¶
- Base 模型评估方式存疑:用 prompt-completion 评估未经指令训练的 base 模型并非最佳方式,可能低估其答案质量(base 模型的统计不确定性更大)
- 前缀设计未专门优化:10 种前缀兼顾了多种实验条件(情感、约束、礼貌等),非专门为政治偏见测量而设计
- 仅两个意识形态维度:经济-文化二维框架虽有理论支撑,但无法捕捉更细粒度的议题维度(如环境、移民)
- 西方中心性:WVS 虽是国际调查,但政治命题和左右划分仍以西方政治语境为主
- 分类器偏差:训练集仅 1,320 条且单人标注,0.9 阈值过滤掉 33% 数据,可能引入系统性偏差
- 模型时效性:测试的模型(GPT-3.5/4、LLaMA-2、Falcon、Mistral-v0.1)已非最新,结论对后续模型的适用性有待验证
相关工作¶
- 约束式回答方向:Liu et al. (2022) 用二分类器发现 GPT-2 偏自由派;多项研究 (Hartmann 2023, Motoki 2024, Rozado 2023) 用 PCT 的 Likert 量表发现 ChatGPT 偏左,但均未考虑提示变体和开放式回答
- 开放式回答方向:Feng et al. (2023) 用零样本立场检测直接分类 PCT 回复,但分类器性能不佳且未用科学调查工具;Röttger et al. (2024) 发现约束与开放设定下回答模式不同,但仍依赖 PCT
- 提示敏感性:Linzbach et al. (2023) 证明语法变体改变 LLM 性能;Shu et al. (2023) 发现语义反转后答案不一致;Röttger et al. (2024) 证明不同前缀显著改变 PCT 结果
- 价值观调查:Arora et al. (2023) 和 Atari et al. (2023) 用 WVS 完整问卷探测跨文化价值观,但采用强制选择格式且非聚焦政治偏见
- 并发工作:Ceron et al. (2024) 和 Stammbach et al. (2024) 将 LLM 偏见与投票建议应用结合;Bang et al. (2024) 分析政治偏见的"说什么"与"怎么说"
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次引入政治科学理论驱动的 LLM 偏见测量,方法论贡献显著
- 实验充分度: ⭐⭐⭐⭐⭐ 11 模型 × 30 提示变体 × 3 次运行 = 88K 回复,含分类器验证和 bootstrap 置信区间
- 写作质量: ⭐⭐⭐⭐ 跨学科论证清晰,PCT 批判有理有据
- 实用价值: ⭐⭐⭐⭐ 提供可操作的偏见评估建议,代码开源
- 综合: ⭐⭐⭐⭐ 方法论引领性强,但测试模型偏旧、命题覆盖有限