Analyzing Political Bias in LLMs via Target-Oriented Sentiment Classification¶

会议: ACL 2025
arXiv: 2505.19776
代码: 待确认
领域: LLM偏见分析 / 情感分类
关键词: 政治偏见, 目标导向情感分类, 熵基不一致性, 多语言, 政治家名字, 偏见缓解

一句话总结¶

提出基于目标导向情感分类（TSC）不一致性的 LLM 政治偏见分析新方法——在 450 个政治句子中插入 1319 名不同政治光谱/人口特征的政治家名字，用 7 个模型×6 种语言预测情感，定义熵基不一致性指标量化预测变异性，发现所有模型均存在显著偏见（左翼正面/极右翼负面），大模型偏见更强且更一致，用虚构名字替换可部分缓解。

背景与动机¶

LLM 的政治偏见可能影响内容审核、政治分析等下游应用。现有偏见分析方法的局限：

问卷式（Political Compass 测试）：交互次数少，统计效力弱，格式受限
生成式（分析生成的政治文章）：量化困难，常依赖偏见的 LLM 做评估（偏见传播）
两者都缺乏可操作的下游任务洞察

TSC 提供了实用的中间方案：可量化、自然、与真实应用对齐。

核心问题¶

LLM 在对同一句子中不同政治家做情感分类时，预测是否一致？不一致性（作为偏见代理指标）在不同政治光谱/语言/模型规模上如何分布？

方法详解¶

实验设置¶

政治句子：450 句（MAD-TSC 数据集），翻译为 6 种语言（英/法/德/西/阿/中）
政治家：1319 名，覆盖 8 种政治取向（极左→极右）和多样人口特征
操作：在每个句子中替换不同政治家名字，观察情感预测变化
数据量：约 2500 万数据点（450句×1319名字×7模型×6语言）

不一致性指标¶

\[\text{Inconsistency}(s) = H(\text{predictions across names for sentence } s)\]

基于香农熵：如果所有名字预测相同情感→熵=0（一致）；如果名字导致不同预测→熵高（不一致=有偏见）
对可靠分类器：不一致性应接近 0

偏见分析维度¶

政治取向：左翼/中间/右翼/极右翼
语言：6 种语言的偏见强度对比
模型规模：大模型 vs 小模型
政治家个体：特定政治家的偏见模式

缓解方案¶

用虚构但合理的名字替换真实政治家名字→降低不一致性

实验关键数据¶

关键发现¶

发现	详情
普遍存在偏见	所有 42 个模型-语言组合都有显著不一致性
左翼正面偏向	左翼政治家获得更多正面情感预测
极右翼负面偏向	极右翼政治家获得更多负面预测
相似取向正相关	类似政治立场的政治家偏见模式正相关
语言差异	西方语言（英/法/德）偏见更强，其他语言较弱
模型规模效应	大模型偏见更强且更一致
名字替换有效	虚构名字降低不一致性，略提高准确率

分析规模¶

~2500 万数据点——统计效力极强
8 种政治取向×6 语言×7 模型——多维分析

亮点¶

方法论创新：不依赖问卷或生成文本，而是利用 TSC 预测变异性作为偏见代理——更自然、可量化、与应用对齐
规模空前：2500 万数据点，统计鲁棒性远超现有研究
"大模型偏见更强"的发现——反直觉但重要
虚构名字替换缓解——简单但有效的实用方案
多语言分析：揭示偏见的语言依赖性

局限性 / 可改进方向¶

仅 TSC 任务：偏见在其他任务中可能表现不同
名字替换不完美：残余不一致性仍存在
政治取向标注可能有争议：某些政治家的政治光谱归属有主观性
MAD-TSC 句子可能不充分覆盖所有政治话题

与相关工作的对比¶

vs 问卷式偏见分析：交互少/统计弱；本文 2500 万数据点
vs Buyl et al. 2024（生成分析）：用 LLM 评估 LLM 生成——偏见传播；本文直接用预测变异性
vs Motoki et al. 2024：Political Compass 少量问题；本文 450 句×1319 名字

启发与关联¶

TSC 不一致性作为偏见度量是通用工具——可推广到种族/性别/宗教偏见分析
"大模型偏见更强"提示规模扩展不会自动缓解偏见——需要主动去偏
多语言偏见差异反映了训练数据的文化分布不均

评分¶

新颖性: ⭐⭐⭐⭐⭐ TSC不一致性方法新颖，规模空前
实验充分度: ⭐⭐⭐⭐⭐ 2500万数据点×多维分析，极其充分
写作质量: ⭐⭐⭐⭐ 分析系统，可视化清晰
价值: ⭐⭐⭐⭐⭐ 对LLM偏见研究和公平部署有重要贡献