Analyzing Political Bias in LLMs via Target-Oriented Sentiment Classification¶
会议: ACL 2025
arXiv: 2505.19776
代码: 待确认
领域: LLM偏见分析 / 情感分类
关键词: 政治偏见, 目标导向情感分类, 熵基不一致性, 多语言, 政治家名字, 偏见缓解
一句话总结¶
提出基于目标导向情感分类(TSC)不一致性的 LLM 政治偏见分析新方法——在 450 个政治句子中插入 1319 名不同政治光谱/人口特征的政治家名字,用 7 个模型×6 种语言预测情感,定义熵基不一致性指标量化预测变异性,发现所有模型均存在显著偏见(左翼正面/极右翼负面),大模型偏见更强且更一致,用虚构名字替换可部分缓解。
背景与动机¶
LLM 的政治偏见可能影响内容审核、政治分析等下游应用。现有偏见分析方法的局限:
- 问卷式(Political Compass 测试):交互次数少,统计效力弱,格式受限
- 生成式(分析生成的政治文章):量化困难,常依赖偏见的 LLM 做评估(偏见传播)
- 两者都缺乏可操作的下游任务洞察
TSC 提供了实用的中间方案:可量化、自然、与真实应用对齐。
核心问题¶
LLM 在对同一句子中不同政治家做情感分类时,预测是否一致?不一致性(作为偏见代理指标)在不同政治光谱/语言/模型规模上如何分布?
方法详解¶
实验设置¶
- 政治句子:450 句(MAD-TSC 数据集),翻译为 6 种语言(英/法/德/西/阿/中)
- 政治家:1319 名,覆盖 8 种政治取向(极左→极右)和多样人口特征
- 操作:在每个句子中替换不同政治家名字,观察情感预测变化
- 数据量:约 2500 万数据点(450句×1319名字×7模型×6语言)
不一致性指标¶
\[\text{Inconsistency}(s) = H(\text{predictions across names for sentence } s)\]
- 基于香农熵:如果所有名字预测相同情感→熵=0(一致);如果名字导致不同预测→熵高(不一致=有偏见)
- 对可靠分类器:不一致性应接近 0
偏见分析维度¶
- 政治取向:左翼/中间/右翼/极右翼
- 语言:6 种语言的偏见强度对比
- 模型规模:大模型 vs 小模型
- 政治家个体:特定政治家的偏见模式
缓解方案¶
用虚构但合理的名字替换真实政治家名字→降低不一致性
实验关键数据¶
关键发现¶
| 发现 | 详情 |
|---|---|
| 普遍存在偏见 | 所有 42 个模型-语言组合都有显著不一致性 |
| 左翼正面偏向 | 左翼政治家获得更多正面情感预测 |
| 极右翼负面偏向 | 极右翼政治家获得更多负面预测 |
| 相似取向正相关 | 类似政治立场的政治家偏见模式正相关 |
| 语言差异 | 西方语言(英/法/德)偏见更强,其他语言较弱 |
| 模型规模效应 | 大模型偏见更强且更一致 |
| 名字替换有效 | 虚构名字降低不一致性,略提高准确率 |
分析规模¶
- ~2500 万数据点——统计效力极强
- 8 种政治取向×6 语言×7 模型——多维分析
亮点¶
- 方法论创新:不依赖问卷或生成文本,而是利用 TSC 预测变异性作为偏见代理——更自然、可量化、与应用对齐
- 规模空前:2500 万数据点,统计鲁棒性远超现有研究
- "大模型偏见更强"的发现——反直觉但重要
- 虚构名字替换缓解——简单但有效的实用方案
- 多语言分析:揭示偏见的语言依赖性
局限性 / 可改进方向¶
- 仅 TSC 任务:偏见在其他任务中可能表现不同
- 名字替换不完美:残余不一致性仍存在
- 政治取向标注可能有争议:某些政治家的政治光谱归属有主观性
- MAD-TSC 句子可能不充分覆盖所有政治话题
与相关工作的对比¶
- vs 问卷式偏见分析:交互少/统计弱;本文 2500 万数据点
- vs Buyl et al. 2024(生成分析):用 LLM 评估 LLM 生成——偏见传播;本文直接用预测变异性
- vs Motoki et al. 2024:Political Compass 少量问题;本文 450 句×1319 名字
启发与关联¶
- TSC 不一致性作为偏见度量是通用工具——可推广到种族/性别/宗教偏见分析
- "大模型偏见更强"提示规模扩展不会自动缓解偏见——需要主动去偏
- 多语言偏见差异反映了训练数据的文化分布不均
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ TSC不一致性方法新颖,规模空前
- 实验充分度: ⭐⭐⭐⭐⭐ 2500万数据点×多维分析,极其充分
- 写作质量: ⭐⭐⭐⭐ 分析系统,可视化清晰
- 价值: ⭐⭐⭐⭐⭐ 对LLM偏见研究和公平部署有重要贡献