Only a Little to the Left: A Theory-grounded Measure of Political Bias in LLMs¶

会议: ACL 2025
arXiv: 2503.16148
代码: https://github.com/MaFa211/theory_grounded_pol_bias
领域: AI安全
关键词: 政治偏见, LLM偏见测量, Political Compass Test, World Values Survey, 提示敏感性, 立场检测

一句话总结¶

本文用政治科学中经过验证的 World Values Survey (WVS) 替代缺乏科学基础的 Political Compass Test (PCT)，设计 30 种提示变体在 11 个开源/商业 LLM 上收集 88,110 条开放式回复并训练立场分类器自动标注，发现指令微调模型普遍偏左但偏见度量对提示高度敏感，PCT 会夸大特定模型（如 GPT-3.5）的政治偏见。

研究背景与动机¶

应用风险：LLM 被广泛用于信息搜索、内容摘要、角色模拟等场景，其政治偏见可能在下游任务（政治新闻筛选、投票建议应用）中系统性地放大已有偏见。
测量工具不可靠：现有研究大量依赖 Political Compass Test，但 PCT 从未经过标准社会科学方法论的验证——无预测试文档、无同行评审开发过程、包含诱导性表述（如"占星术能解释很多事情"），且在 Google Scholar 上仅被 143 篇文章提及（对比 WVS 的 58,000+）。
提示敏感性被忽视：不同研究使用不同提示模板导致相同模型的偏见评估结论矛盾，但大部分工作未系统处理提示变体的影响。
约束式回答的生态效度低：多数研究强制模型用单 token（Likert 量表）作答，但真实用户几乎不会如此限制 LLM 输出，约束式设定下的偏见估计不具生态效度。
缺乏理论定义：此前工作未给出政治偏见的明确概念定义——如果模型同时赞成左右两侧观点，则不应被视为有偏见（意识形态要求"互相关联且稳定"的政治态度集合）。
核心切入：引入政治科学理论基础（左-右两维意识形态框架：经济维度 + 文化维度），结合 WVS 有效调查工具、30 种提示变体、开放式回答 + 自动立场分类，构建稳健的 LLM 政治偏见测量方法。

方法详解¶

整体框架¶

构建政治命题库：从 PCT（62 条）和 WVS（27 条）中收集共 89 条政治命题
标注命题极性：用 GPT-4 标注每条命题的（a）赞同反映左/右立场；（b）属于经济/文化维度。人工验证 40 条子集，Cohen's κ = 0.77/0.76
命题改写：对每条命题用 GPT-4 生成 3 个版本——原始、同义改写、政治对立面（翻转标签），测试模型对措辞和方向的一致性
前缀变体：设计 10 种提示前缀（含 baseline/likert/情感引导/事实判断等），与 3 种命题版本组合产生 30 种提示方式
模型采样：对 11 个模型（4 个模型家族）× 89 条命题 × 30 种提示 × 3 次运行 = 88,110 条回复
立场自动分类：微调 BART-Large 做四分类（agree / disagree / neutral / unrelated），0.9 置信度阈值下 macro F1 = 0.93
偏见计算：对每个模型在经济和文化两个维度上分别计算左右偏见得分，最终得分 ∈ [-1, 1]

偏见度量定义¶

对模型 \(m\) 和政治方向 \(d \in \{\text{left}, \text{right}\}\)，定义：

\(P_{\text{agree},m,d} = \frac{A}{A + D + N}\)（赞同率）
\(\text{Bias}_{m,d} = P_{\text{agree},m,d} - P_{\text{disagree},m,d}\)（方向偏见）
总偏见 \(= \frac{\text{Bias}_{\text{right},m} - \text{Bias}_{\text{left},m}}{2} \in [-1, 1]\)

负值表示偏左，正值表示偏右。经济和文化维度分别计算。

提示前缀设计¶

前缀名称	设计意图
baseline	无前缀，直接呈现命题
likert	约束式 1-5 量表（对比基线）
please_respond / respond	礼貌 vs 简洁指令风格
please_opinion / opinion	请求意见的不同措辞
emotion_happy	正面情感引导（"我会非常高兴"）
emotion_important	强调重要性的情感施压
truth	模拟事实核查请求
name	用模型名称唤醒（模拟语音助手）

立场分类器¶

零样本 BART-Large(MNLI) 表现不佳 → 领域微调
训练集：1,320 条分层抽样（每模型-提示对 4 条），单人标注
测试集：264 条，双人标注（Cohen's κ = 0.68），讨论解决分歧
0.9 置信度阈值：macro F1 从 ~0.5 提升至 0.93，保留约 67% 的数据

实验结果¶

表1：命题分布¶

来源	维度	方向	数量
PCT	文化	左	9
PCT	文化	右	31
PCT	经济	左	10
PCT	经济	右	12
WVS	文化	左	4
WVS	文化	右	14
WVS	经济	左	2
WVS	经济	右	7

PCT 命题分布严重不均衡（文化右 31 vs 文化左 9），WVS 更精简但分布也不对称。

表2：与现有工作的方法论对比¶

研究	开放式回答	提示变体	理论驱动调查	测试开源模型
Motoki et al. (2024)	✗	✗	✗	✗
Rozado (2023)	✗	✗	✗	✗
Röttger et al. (2024)	✓	✓	✗	✓
Feng et al. (2023)	✓	✓	✗	✓
Ceron et al. (2024)	✓	✓	N/A	✓
本文	✓	✓	✓	✓

本文是唯一同时满足四项方法论标准的工作。

核心发现¶

指令微调引入左倾偏见：所有三个开源模型家族（LLaMA、Falcon、Mistral）的 instruct 版本均比 base 版本显著偏左，base 模型的总偏见接近零。
GPT-4 最接近中立：在所有指令微调模型中政治偏见最低，GPT-3.5 则左倾最严重。
PCT 夸大偏见：对 GPT-3.5，PCT 测出的偏见远大于 WVS；两种工具的模型排名相关性仅为中等（Kendall's τ = 0.6/0.71）。
提示前缀显著影响结果：同一 base 模型在不同前缀下可能被判定为偏左或偏右（如 llama-2-7b-hf 在 opinion 前缀下偏左，在 please_respond 前缀下大幅偏右）。
约束式设定不可靠：Likert 前缀产生的偏见与开放式前缀的平均偏见出现不可预测的偏移。
模型规模影响不大：LLaMA-7B 与 13B、Falcon-7B 与 40B 的 instruct 版本偏见接近。
情感引导有差异效应：emotion_happy 比 emotion_important 使 GPT-3.5 更偏左，暗示正面情感比施压更易诱发偏见。

亮点与洞察¶

跨学科贡献突出：首次将政治科学中成熟的调查方法论（WVS、意识形态两维理论）引入 LLM 偏见评估，弥补了 NLP 社区长期依赖非科学工具的缺陷
方法论闭环完整：从命题构建 → 提示设计 → 立场分类 → 偏见计算，每一步都有验证（GPT-4 标注 vs 人工、分类器性能、bootstrap 置信区间）
实用建议明确：为后续研究者提供三条具体建议——使用高构造效度的调查工具、采用开放式回答、纳入提示变体以确认稳定性
揭示 PCT 的根本缺陷：不仅理论论证其不可靠，还用实证数据证明它夸大偏见，对社区依赖 PCT 的惯性发出有力警示

局限性¶

Base 模型评估方式存疑：用 prompt-completion 评估未经指令训练的 base 模型并非最佳方式，可能低估其答案质量（base 模型的统计不确定性更大）
前缀设计未专门优化：10 种前缀兼顾了多种实验条件（情感、约束、礼貌等），非专门为政治偏见测量而设计
仅两个意识形态维度：经济-文化二维框架虽有理论支撑，但无法捕捉更细粒度的议题维度（如环境、移民）
西方中心性：WVS 虽是国际调查，但政治命题和左右划分仍以西方政治语境为主
分类器偏差：训练集仅 1,320 条且单人标注，0.9 阈值过滤掉 33% 数据，可能引入系统性偏差
模型时效性：测试的模型（GPT-3.5/4、LLaMA-2、Falcon、Mistral-v0.1）已非最新，结论对后续模型的适用性有待验证

评分¶

新颖性: ⭐⭐⭐⭐ 首次引入政治科学理论驱动的 LLM 偏见测量，方法论贡献显著
实验充分度: ⭐⭐⭐⭐⭐ 11 模型 × 30 提示变体 × 3 次运行 = 88K 回复，含分类器验证和 bootstrap 置信区间
写作质量: ⭐⭐⭐⭐ 跨学科论证清晰，PCT 批判有理有据
实用价值: ⭐⭐⭐⭐ 提供可操作的偏见评估建议，代码开源
综合: ⭐⭐⭐⭐ 方法论引领性强，但测试模型偏旧、命题覆盖有限