跳转至

Leveraging In-Context Learning for Political Bias Testing of LLMs

会议: ACL 2025
arXiv: 2506.22232
代码: 有(论文注明公开可用)
领域: NLP理解 / AI安全
关键词: 政治偏见检测, 大语言模型, 上下文学习, 问卷建模, 指令微调

一句话总结

本文提出"问卷建模"(Questionnaire Modeling, QM)这一新探测任务,利用人类调查数据作为上下文示例来改善LLM政治偏见检测的稳定性,发现指令微调可以改变偏见方向,且更大的模型能更有效地利用上下文示例并展现更小的偏见分数。

研究背景与动机

领域现状:越来越多的研究通过向LLM提出政治相关问题来评估其潜在偏见。常见做法是直接用政治问卷(如"投票顾问"类的问题集)去提示模型,然后根据模型回答计算其在政治光谱上的位置。

现有痛点:这种简单的"直接提问"探测方法存在严重的稳定性问题。具体表现为:(1) 同一模型对同一问题在不同运行中可能给出不同回答;(2) 问题的措辞微调就可能导致偏见评估结果翻转;(3) 不同模型之间的偏见比较因此变得不可靠。这使得研究者难以得出LLM"到底偏向哪一方"的可靠结论。

核心矛盾:直接向LLM提出政治问题时,模型缺乏足够的上下文来"理解"这个任务的具体含义——它不知道这些问题来自什么调查、其他人是如何回答的、以及"同意/不同意"在这个特定语境下的具体含义。这种模糊性导致了不稳定的回答。

本文目标:设计一种更稳定的LLM偏见探测方法,使模型间的比较更可靠,同时能够揭示指令微调对模型偏见的影响。

切入角度:作者的关键洞察是——如果给LLM提供人类被试的真实回答作为上下文示例(in-context examples),模型就能更好地理解任务语境,从而给出更稳定的回答。这本质上是将偏见检测重新框架为一个"问卷建模"任务。

核心 idea:用人类调查数据作为上下文学习的示例,将LLM偏见探测转化为"问卷建模"任务,显著改善探测稳定性并支持指令微调模型与基座模型的可靠比较。

方法详解

整体框架

输入是一组政治问卷问题和来自真实人类调查(如投票顾问平台Smartvote)的回答数据。对于每个测试问题,从人类调查数据中采样若干示例作为上下文(包含问题-回答对),然后让LLM在这些上下文的引导下回答目标问题。通过多次采样不同的上下文示例集并取平均,得到模型对每个问题的稳定偏好分数,最终映射到政治光谱上计算偏见分数。

关键设计

  1. 问卷建模(Questionnaire Modeling, QM)任务:

    • 功能:将LLM偏见检测从"直接提问"升级为带上下文的条件生成任务
    • 核心思路:给定一个政治问题 \(q_i\),从人类调查数据中采样 \(k\) 个其他问题及其回答 \(\{(q_j, a_j)\}_{j \neq i}\) 作为 in-context examples,然后要求LLM预测 \(q_i\) 的回答。通过Bootstrap采样不同的上下文集并重复多次,取平均得到稳定估计。核心在于提供"答题人格画像"让模型模拟
    • 设计动机:上下文示例为模型提供了"调查场景"和"回答者画像"两层信息,减少了模型回答的随机性和模糊性
  2. 基于人类调查数据的上下文采样:

    • 功能:为QM任务提供高质量的上下文示例
    • 核心思路:使用来自瑞士Smartvote投票顾问平台的真实候选人回答数据。每个候选人回答了一组政治问题(李克特量表),这些真实回答作为采样池。每次测试时,随机选择一个候选人的回答作为上下文模板
    • 设计动机:真实数据比合成数据更有代表性,政客的回答具有内在一致的政治立场,为模型提供了连贯的"人格"来模拟
  3. 偏见分数的稳定性评估框架:

    • 功能:量化评估QM相比直接提问在稳定性上的改进
    • 核心思路:对同一模型、同一问题进行多轮测试(直接提问 vs QM),计算跨轮的方差作为稳定性指标。对比方式包括:(1) 跨运行的回答一致性;(2) 计算整体偏见分数的置信区间;(3) 在给定候选人上下文下的条件偏见分数与该候选人真实政治立场的相关性
    • 设计动机:偏见检测的可靠性是该领域长期被忽视的问题,必须先解决稳定性才能进行有意义的模型间比较

损失函数 / 训练策略

本文不涉及训练,而是对现有模型进行零样本和少样本测试。评测指标包括偏见分数(在政治光谱上的位置)、跨运行方差(稳定性)、指令微调模型与基座模型的偏见方向差异。

实验关键数据

主实验

模型 直接提问偏见方差 QM偏见方差 方差降低 偏见方向
GPT-4 显著 中偏左
Llama-2-70B-chat 显著 中偏左
Llama-2-13B-chat 较低 中等 不稳定→稳定偏左
Llama-2-7B-chat 中等 方向不确定
小模型 (<7B) 很高 仍较高 较小 几乎随机

消融实验

配置 稳定性 说明
QM (完整) 最高 使用真实人类上下文,多次采样平均
直接提问 (无上下文) 最低 模型回答高度不稳定
指令微调 vs 基座模型 N/A QM能有效区分两者偏见方向差异
不同上下文数量 k 随k增大稳定性提升 k=5-10 为较好的平衡点

关键发现

  • QM显著提升稳定性:使用人类调查数据作上下文后,偏见测量的跨运行方差大幅下降,使模型间比较变得可靠
  • 指令微调改变偏见方向:在QM框架下可以清晰观察到,指令微调有时会将模型的偏见从一个方向翻转到另一个方向,这在直接提问方法下因方差太大而无法可靠检测
  • 规模效应:更大的模型能更有效地利用上下文示例(更好的in-context learning能力),因此在QM中表现出更低的偏见分数和更高的稳定性
  • 小模型几乎无法完成QM:小规模模型的in-context learning能力不足,因此QM的改进效果有限

亮点与洞察

  • 用ICL解决评测稳定性问题:将in-context learning从任务执行工具转变为评测方法论的一部分,这是一个新颖的视角。其核心思想——"给模型更多上下文来稳定其行为"——可以迁移到任何需要稳定评估LLM主观偏好的任务中。
  • 问卷建模的跨学科设计:将社会科学的调查方法论与NLP结合,用真实候选人数据构建上下文,既保证了生态效度又提供了可控的实验设计。
  • 揭示指令微调的双刃剑效应:实证表明指令微调不仅可能放大偏见也可能改变偏见方向,这对安全对齐研究有重要启示。

局限与展望

  • 仅在瑞士政治语境下测试,政治光谱的定义和问卷问题具有文化特异性,推广到其他国家/语境需要验证
  • 上下文中的人类回答来自政治候选人,其立场可能比普通公民更极化,可能影响模型的模拟行为
  • 仅评估了文本模型回答的偏见,未考虑模型拒绝回答(refusal)的频率差异对偏见估计的影响
  • 对"偏见"的定义较狭义(政治光谱位置),未涵盖更深层的意识形态偏见

相关工作与启发

  • vs Political Compass测试: Political Compass直接提问,本文的QM方法通过上下文示例显著改善了稳定性,是方法论上的升级
  • vs OpinionQA (Santurkar et al.): OpinionQA评估LLM的观点分布,本文更关注偏见测量的可靠性并提出了具体的改进方案(QM)
  • vs 角色扮演评测 (persona-based probing): 有些工作让LLM扮演特定政治角色来评估偏见,QM通过隐式的上下文而非显式的角色指令来引导,更接近自然行为

评分

  • 新颖性: ⭐⭐⭐⭐ QM是一个简洁有效的新范式,将ICL用于评测稳定性很有创意
  • 实验充分度: ⭐⭐⭐⭐ 多模型多规模测试,有稳定性量化分析,但仅限单一政治语境
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述简洁
  • 价值: ⭐⭐⭐⭐ 对LLM偏见评估的方法论有重要贡献,安全研究社区应重视

相关论文