Biased LLMs Can Influence Political Decision-Making¶
会议: ACL 2025
arXiv: 2410.06415
代码: 无
领域: AI安全
关键词: 政治偏见、LLM影响力、决策实验、党派偏见、人机交互
一句话总结¶
通过两项大规模交互实验(N=299),本文首次实证证明带有党派偏见的LLM可以显著影响人类的政治观点和预算分配决策,且这种影响甚至跨越党派——民主党人会被保守偏见的LLM说服,共和党人也会被自由偏见的LLM影响。
研究背景与动机¶
领域现状:随着ChatGPT等LLM深度融入日常信息获取,其内在偏见对人类决策的潜在影响引起广泛关注。已有大量工作记录了LLM中存在的社会偏见和政治偏见,但这些研究主要关注偏见的检测而非其实际影响。
现有痛点:关于偏见LLM对人类态度和行为影响的研究极为有限且结论不一。现有研究要么使用静态LLM生成内容(非交互式),要么涉及非个人化/虚构任务,无法反映真实使用场景。更关键的是,LLM在政治决策上的影响力从未被直接研究过,而这恰恰是重大社会关切。
核心矛盾:传统媒体偏见的影响力已被充分证实(如Fox News使3-8%的观众转向共和党),但LLM引入了新的动态——人们同时视其为权威信息源和不可信工具。这种矛盾心理下,LLM偏见的实际影响力是被放大还是被抑制?
本文目标:通过严格的实验设计,量化评估带有党派偏见的LLM在自由交互场景中对人类政治观点和决策行为的影响。
切入角度:设计两个涉及个人价值观的政治任务(而非虚构场景),让参与者自由与偏见LLM交互,在"不知情"的情况下测量影响。
核心 idea:用3×2实验设计(自由/保守/中立LLM × 民主/共和党参与者),通过交互前后的立场变化量化偏见LLM的政治影响力。
方法详解¶
整体框架¶
实验招募299名参与者(通过Prolific平台),按党派平衡分组(150名共和党、149名民主党)。每人完成两个任务:话题观点任务(Topic Opinion Task)和预算分配任务(Budget Allocation Task)。参与者在不知情的情况下随机分配到三个实验条件之一:自由偏见LLM、保守偏见LLM或中立LLM。所有模型基于GPT-3.5-turbo构建,通过前缀指令引入偏见。
关键设计¶
-
话题观点任务(Topic Opinion Task):
- 功能:测量LLM对参与者政治观点的影响
- 核心思路:选择4个相对冷门的政治话题(降低参与者先验知识的干扰)——多户住宅和Lacey法案(自由派倾向)、国际单边主义和契约婚姻(保守派倾向)。参与者先报告对话题的了解程度和立场(7点Likert量表),然后与LLM自由对话获取信息(3-20轮交互),最后重新报告立场。使用序数逻辑回归分析前后立场变化 \(Y = \beta_0 + \beta_1 L + \beta_2 C + \epsilon\)。
- 设计动机:使用冷门话题模拟真实场景——人们正是在不熟悉的话题上才会向LLM寻求信息,此时偏见影响力最大。
-
预算分配任务(Budget Allocation Task):
- 功能:测量LLM对参与者实际决策行为的影响
- 核心思路:参与者扮演市长,将政府剩余资金分配给四个部门(公共安全、教育、退伍军人服务、福利)。先做初始分配,提交给LLM获取反馈,与LLM交互讨论后提交最终分配。使用ANOVA+Dunnett事后检验分析分配变化。
- 设计动机:预算分配是具体的决策行为(而非抽象观点),更能体现LLM的实际影响力。四个部门的选择反映了保守/自由派的典型政策优先级偏好。
-
偏见模型构建与验证:
- 功能:创建可控偏见程度的实验模型
- 核心思路:基于GPT-3.5-turbo,通过系统前缀注入偏见(如"Respond as a radical left U.S. Democrat...")。使用政治指南针测试(PCT)验证偏见有效性:自由偏见模型在PCT上显示自由立场,保守偏见模型显示保守立场,中立模型在76%的PCT问题上拒绝表态。
- 设计动机:前缀方法避免了fine-tuning的高成本,同时通过显式指令确保偏见的一致性。PCT验证确保实验条件的有效性。
损失函数 / 训练策略¶
本文为人类行为实验研究,不涉及模型训练。使用统计检验(序数逻辑回归、ANOVA、Dunnett检验)分析结果。
实验关键数据¶
话题观点任务结果¶
| 参与者党派 | 话题倾向 | LLM偏见 | β值 | t值 | p值 |
|---|---|---|---|---|---|
| 民主党 | 保守话题 | 自由偏见 | -0.85 | -2.38 | 0.02 |
| 民主党 | 保守话题 | 保守偏见 | 0.98 | 2.71 | <0.01 |
| 共和党 | 保守话题 | 自由偏见 | -0.79 | -2.16 | 0.03 |
| 民主党 | 自由话题 | 保守偏见 | 1.44 | 3.82 | <0.01 |
| 共和党 | 自由话题 | 保守偏见 | 1.42 | 3.91 | <0.01 |
预算分配任务结果¶
| 参与者 | 部门 | LLM偏见 | Dunnett p值 | 说明 |
|---|---|---|---|---|
| 民主党 | 安全 | 自由 | <0.01 | 显著变化 |
| 民主党 | 退伍军人 | 保守 | <0.01 | 民主党被保守LLM说服增加军人拨款 |
| 民主党 | 教育 | 保守 | <0.01 | 民主党被保守LLM说服减少教育拨款 |
| 共和党 | 安全 | 自由 | <0.01 | 共和党被自由LLM说服减少安全拨款 |
| 共和党 | 教育 | 自由 | 0.03 | 共和党被自由LLM说服增加教育拨款 |
| 共和党 | 福利 | 保守 | 0.03 | 跨党派影响也显著 |
关键发现¶
- 偏见LLM的影响力跨越党派界限:民主党人被保守LLM显著影响(反过来也是),这挑战了"人们会抵制与自身信念相悖信息"的传统认知
- 预算分配任务中的影响更加强烈和全面——几乎所有部门的拨款都受到显著影响
- 约54%的参与者能正确识别模型存在偏见,但识别偏见并不能减弱其影响力——这是一个令人警醒的发现
- 自述AI知识较多的参与者受影响程度略低(弱相关),提示AI教育可能是偏见缓解的手段
- 两个任务的交互模式差异明显:话题任务中80.7%的人像使用搜索引擎,预算任务中48%的人主动征求LLM意见
亮点与洞察¶
- 实验设计极为严谨:双盲、随机分组、前后测对比、多任务交叉验证。在HCI/AI Safety领域堪称标杆级实验设计。
- 最惊人的发现是"识别偏见不能免疫偏见影响"——这颠覆了媒体研究中"认知免情说"的假设。这意味着警示用户注意AI偏见可能不足以解决问题。
- 从说服术分析来看,偏见LLM并非使用不同的说服技巧,而是使用不同的框架维度——保守偏见LLM强调"安全/国防"框架,自由偏见LLM强调"公平/经济"框架。这与传统新闻偏见的运作方式一致,提示LLM偏见可能需要类似的缓解策略。
局限与展望¶
- 仅使用GPT-3.5-turbo一个模型,结果是否泛化到其他LLM尚不清楚
- 仅测量即时影响,长期影响未知——偏见效应是否会在交互结束后消退?
- 参与者限于美国公民,美国两党体制的特殊性限制了结论的跨文化泛化
- 未来可以研究:不同程度的偏见对影响力的剂量效应关系;在真实场景(如选举前信息搜索)中的影响
相关工作与启发¶
- vs Fox News影响力研究: Fox News使3-8%观众改变投票,本文的LLM偏见影响更加直接和显著——这可能因为LLM的交互性和被感知的"客观性"
- vs Jakesch et al. (2023): 之前研究自动补全建议的影响结论不一,本文使用自由对话范式得到了更明确的结论
- vs 静态偏见检测工作: 本文从"检测偏见是否存在"推进到"偏见是否真的影响人",完成了因果链的关键一环
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个直接量化偏见LLM对政治决策影响的实验研究
- 实验充分度: ⭐⭐⭐⭐⭐ 双任务、前后测、多维分析、说服术分析,极为严谨
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,结论有力
- 价值: ⭐⭐⭐⭐⭐ 对AI政策制定和社会影响评估具有直接意义
相关论文¶
- [ACL 2025] Can LLMs Ground when they (Don't) Know: A Study on Direct and Loaded Political Questions
- [ACL 2025] Only a Little to the Left: A Theory-grounded Measure of Political Bias in LLMs
- [ACL 2025] Leveraging In-Context Learning for Political Bias Testing of LLMs
- [ACL 2025] Can LLMs Interpret and Leverage Structured Linguistic Representations? A Case Study with AMRs
- [ICLR 2026] When Stability Fails: Hidden Failure Modes of LLMs in Data-Constrained Scientific Decision-Making