跳转至

PRISM: A Framework for Producing Interpretable Political Bias Embeddings

会议: ACL 2025
arXiv: 2505.24646
代码: https://github.com/dukesun99/ACL-PRISM
领域: AI安全
关键词: 政治偏见, 文本嵌入, Cross-Encoder, 可解释性, 新闻分析

一句话总结

提出PRISM框架——首个专为政治偏见嵌入设计的方法,通过争议性话题偏见指标挖掘和Cross-Encoder政治偏见评分两阶段,生成可解释的偏见感知嵌入,在政治偏见分类上超越通用文本嵌入模型。

研究背景与动机

  1. 领域现状:现有文本嵌入模型擅长捕捉语义相似性,但忽略意识形态细微差异。
  2. 现有痛点:通用嵌入无法区分内容相同但立场不同的文本(如左翼和右翼对同一事件的报道)。
  3. 核心矛盾:政治偏见是多维度的(涉及不同话题),且嵌入需要可解释性才能用于分析。
  4. 本文要解决什么? 如何构建既能捕捉政治偏见又具有可解释性的文本嵌入?
  5. 切入角度:两阶段方法——先挖掘细粒度偏见指标,再用Cross-Encoder打分。
  6. 核心idea一句话:通过挖掘争议性话题的偏见指标(如"移民"话题下的左/右立场标志词),将新闻文章的嵌入明确绑定到偏见维度上。

方法详解

整体框架

阶段1:争议性话题偏见指标挖掘
从弱标注新闻数据中系统提取细粒度政治话题及其对应的偏见指标

阶段2:Cross-Encoder政治偏见嵌入
基于偏见指标对新闻文章打偏见分数,生成结构化的偏见嵌入

关键设计

  1. 偏见指标挖掘:从左/右翼媒体的差异性用词中提取话题级偏见信号
  2. Cross-Encoder打分:将文章与偏见指标配对输入Cross-Encoder,输出该维度的偏见分数
  3. 可解释性:嵌入的每个维度对应一个具体的政治话题偏见,可直接解读

实验关键数据

主实验(政治偏见分类)

数据集 PRISM POLITICS AnglE CQG-MBQA
NewsSpectrum 86.1% 51.3% 48.4% 45.1%
BigNews 73.5% 85.7% - -
BASIL (OOD) 40.0% 31.7% - -

注:POLITICS 在 BigNews 上性能更高可能因训练/测试集重叠

消融实验

参数 最优值 说明
聚类数 k 1,000 太少→话题多样性不足,太多→噪声
Top-m 话题 9 m=1 表示不足,m=9 后稳定
偏见离散度阈值 自动 高离散度话题更具区分力

关键发现

  • 可解释的偏见嵌入在分类性能上也优于通用嵌入
  • 偏见指标挖掘能有效发现左/右翼媒体的话题级差异
  • OOD 泛化能力强:在 BASIL 人工标注语料上比 POLITICS 高 8.3%
  • 多样化检索:在相同多样性水平下保持更高的内容相关性

亮点与洞察

  • 将偏见编码为可解释的维度而非黑盒嵌入,是一个重要的设计选择
  • 弱监督的指标挖掘方法可扩展到其他类型的偏见分析

局限性 / 可改进方向

  • 依赖媒体源级标签作为弱监督信号
  • 主要在英语新闻上评估

评分

  • 新颖性: ⭐⭐⭐⭐ 首个政治偏见专用嵌入方法
  • 实验充分度: ⭐⭐⭐⭐ 两个大规模数据集
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰
  • 价值: ⭐⭐⭐⭐ 对政治偏见分析有实际应用价值