跳转至

Analyzing Political Bias in LLMs via Target-Oriented Sentiment Classification

会议: ACL 2025
arXiv: 2505.19776
代码: 待确认
领域: LLM偏见分析 / 情感分类
关键词: 政治偏见, 目标导向情感分类, 熵基不一致性, 多语言, 政治家名字, 偏见缓解

一句话总结

提出基于目标导向情感分类(TSC)不一致性的 LLM 政治偏见分析新方法——在 450 个政治句子中插入 1319 名不同政治光谱/人口特征的政治家名字,用 7 个模型×6 种语言预测情感,定义熵基不一致性指标量化预测变异性,发现所有模型均存在显著偏见(左翼正面/极右翼负面),大模型偏见更强且更一致,用虚构名字替换可部分缓解。

背景与动机

LLM 的政治偏见可能影响内容审核、政治分析等下游应用。现有偏见分析方法的局限:

  1. 问卷式(Political Compass 测试):交互次数少,统计效力弱,格式受限
  2. 生成式(分析生成的政治文章):量化困难,常依赖偏见的 LLM 做评估(偏见传播)
  3. 两者都缺乏可操作的下游任务洞察

TSC 提供了实用的中间方案:可量化、自然、与真实应用对齐。

核心问题

LLM 在对同一句子中不同政治家做情感分类时,预测是否一致?不一致性(作为偏见代理指标)在不同政治光谱/语言/模型规模上如何分布?

方法详解

实验设置

  • 政治句子:450 句(MAD-TSC 数据集),翻译为 6 种语言(英/法/德/西/阿/中)
  • 政治家:1319 名,覆盖 8 种政治取向(极左→极右)和多样人口特征
  • 操作:在每个句子中替换不同政治家名字,观察情感预测变化
  • 数据量:约 2500 万数据点(450句×1319名字×7模型×6语言)

不一致性指标

\[\text{Inconsistency}(s) = H(\text{predictions across names for sentence } s)\]
  • 基于香农熵:如果所有名字预测相同情感→熵=0(一致);如果名字导致不同预测→熵高(不一致=有偏见)
  • 对可靠分类器:不一致性应接近 0

偏见分析维度

  • 政治取向:左翼/中间/右翼/极右翼
  • 语言:6 种语言的偏见强度对比
  • 模型规模:大模型 vs 小模型
  • 政治家个体:特定政治家的偏见模式

缓解方案

用虚构但合理的名字替换真实政治家名字→降低不一致性

实验关键数据

关键发现

发现 详情
普遍存在偏见 所有 42 个模型-语言组合都有显著不一致性
左翼正面偏向 左翼政治家获得更多正面情感预测
极右翼负面偏向 极右翼政治家获得更多负面预测
相似取向正相关 类似政治立场的政治家偏见模式正相关
语言差异 西方语言(英/法/德)偏见更强,其他语言较弱
模型规模效应 大模型偏见更强且更一致
名字替换有效 虚构名字降低不一致性,略提高准确率

分析规模

  • ~2500 万数据点——统计效力极强
  • 8 种政治取向×6 语言×7 模型——多维分析

亮点

  • 方法论创新:不依赖问卷或生成文本,而是利用 TSC 预测变异性作为偏见代理——更自然、可量化、与应用对齐
  • 规模空前:2500 万数据点,统计鲁棒性远超现有研究
  • "大模型偏见更强"的发现——反直觉但重要
  • 虚构名字替换缓解——简单但有效的实用方案
  • 多语言分析:揭示偏见的语言依赖性

局限性 / 可改进方向

  • 仅 TSC 任务:偏见在其他任务中可能表现不同
  • 名字替换不完美:残余不一致性仍存在
  • 政治取向标注可能有争议:某些政治家的政治光谱归属有主观性
  • MAD-TSC 句子可能不充分覆盖所有政治话题

与相关工作的对比

  • vs 问卷式偏见分析:交互少/统计弱;本文 2500 万数据点
  • vs Buyl et al. 2024(生成分析):用 LLM 评估 LLM 生成——偏见传播;本文直接用预测变异性
  • vs Motoki et al. 2024:Political Compass 少量问题;本文 450 句×1319 名字

启发与关联

  • TSC 不一致性作为偏见度量是通用工具——可推广到种族/性别/宗教偏见分析
  • "大模型偏见更强"提示规模扩展不会自动缓解偏见——需要主动去偏
  • 多语言偏见差异反映了训练数据的文化分布不均

评分

  • 新颖性: ⭐⭐⭐⭐⭐ TSC不一致性方法新颖,规模空前
  • 实验充分度: ⭐⭐⭐⭐⭐ 2500万数据点×多维分析,极其充分
  • 写作质量: ⭐⭐⭐⭐ 分析系统,可视化清晰
  • 价值: ⭐⭐⭐⭐⭐ 对LLM偏见研究和公平部署有重要贡献