PRISM: A Framework for Producing Interpretable Political Bias Embeddings¶
会议: ACL 2025
arXiv: 2505.24646
代码: https://github.com/dukesun99/ACL-PRISM
领域: AI安全
关键词: 政治偏见, 文本嵌入, Cross-Encoder, 可解释性, 新闻分析
一句话总结¶
提出PRISM框架——首个专为政治偏见嵌入设计的方法,通过争议性话题偏见指标挖掘和Cross-Encoder政治偏见评分两阶段,生成可解释的偏见感知嵌入,在政治偏见分类上超越通用文本嵌入模型。
研究背景与动机¶
- 领域现状:现有文本嵌入模型擅长捕捉语义相似性,但忽略意识形态细微差异。
- 现有痛点:通用嵌入无法区分内容相同但立场不同的文本(如左翼和右翼对同一事件的报道)。
- 核心矛盾:政治偏见是多维度的(涉及不同话题),且嵌入需要可解释性才能用于分析。
- 本文要解决什么? 如何构建既能捕捉政治偏见又具有可解释性的文本嵌入?
- 切入角度:两阶段方法——先挖掘细粒度偏见指标,再用Cross-Encoder打分。
- 核心idea一句话:通过挖掘争议性话题的偏见指标(如"移民"话题下的左/右立场标志词),将新闻文章的嵌入明确绑定到偏见维度上。
方法详解¶
整体框架¶
阶段1:争议性话题偏见指标挖掘
从弱标注新闻数据中系统提取细粒度政治话题及其对应的偏见指标
阶段2:Cross-Encoder政治偏见嵌入
基于偏见指标对新闻文章打偏见分数,生成结构化的偏见嵌入
关键设计¶
- 偏见指标挖掘:从左/右翼媒体的差异性用词中提取话题级偏见信号
- Cross-Encoder打分:将文章与偏见指标配对输入Cross-Encoder,输出该维度的偏见分数
- 可解释性:嵌入的每个维度对应一个具体的政治话题偏见,可直接解读
实验关键数据¶
主实验(政治偏见分类)¶
| 数据集 | PRISM | POLITICS | AnglE | CQG-MBQA |
|---|---|---|---|---|
| NewsSpectrum | 86.1% | 51.3% | 48.4% | 45.1% |
| BigNews | 73.5% | 85.7% | - | - |
| BASIL (OOD) | 40.0% | 31.7% | - | - |
注:POLITICS 在 BigNews 上性能更高可能因训练/测试集重叠
消融实验¶
| 参数 | 最优值 | 说明 |
|---|---|---|
| 聚类数 k | 1,000 | 太少→话题多样性不足,太多→噪声 |
| Top-m 话题 | 9 | m=1 表示不足,m=9 后稳定 |
| 偏见离散度阈值 | 自动 | 高离散度话题更具区分力 |
关键发现¶
- 可解释的偏见嵌入在分类性能上也优于通用嵌入
- 偏见指标挖掘能有效发现左/右翼媒体的话题级差异
- OOD 泛化能力强:在 BASIL 人工标注语料上比 POLITICS 高 8.3%
- 多样化检索:在相同多样性水平下保持更高的内容相关性
亮点与洞察¶
- 将偏见编码为可解释的维度而非黑盒嵌入,是一个重要的设计选择
- 弱监督的指标挖掘方法可扩展到其他类型的偏见分析
局限性 / 可改进方向¶
- 依赖媒体源级标签作为弱监督信号
- 主要在英语新闻上评估
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个政治偏见专用嵌入方法
- 实验充分度: ⭐⭐⭐⭐ 两个大规模数据集
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰
- 价值: ⭐⭐⭐⭐ 对政治偏见分析有实际应用价值