跳转至

📚 AI Paper Notes

PRISM: A Framework for Producing Interpretable Political Bias Embeddings

PRISM: A Framework for Producing Interpretable Political Bias Embeddings¶

会议: ACL 2025
arXiv: 2505.24646
代码: https://github.com/dukesun99/ACL-PRISM
领域: AI安全
关键词: 政治偏见, 文本嵌入, Cross-Encoder, 可解释性, 新闻分析

一句话总结¶

提出PRISM框架——首个专为政治偏见嵌入设计的方法，通过争议性话题偏见指标挖掘和Cross-Encoder政治偏见评分两阶段，生成可解释的偏见感知嵌入，在政治偏见分类上超越通用文本嵌入模型。

研究背景与动机¶

领域现状：现有文本嵌入模型擅长捕捉语义相似性，但忽略意识形态细微差异。
现有痛点：通用嵌入无法区分内容相同但立场不同的文本（如左翼和右翼对同一事件的报道）。
核心矛盾：政治偏见是多维度的（涉及不同话题），且嵌入需要可解释性才能用于分析。
本文要解决什么？ 如何构建既能捕捉政治偏见又具有可解释性的文本嵌入？
切入角度：两阶段方法——先挖掘细粒度偏见指标，再用Cross-Encoder打分。
核心idea一句话：通过挖掘争议性话题的偏见指标（如"移民"话题下的左/右立场标志词），将新闻文章的嵌入明确绑定到偏见维度上。

方法详解¶

整体框架¶

阶段1：争议性话题偏见指标挖掘
从弱标注新闻数据中系统提取细粒度政治话题及其对应的偏见指标

阶段2：Cross-Encoder政治偏见嵌入
基于偏见指标对新闻文章打偏见分数，生成结构化的偏见嵌入

关键设计¶

偏见指标挖掘：从左/右翼媒体的差异性用词中提取话题级偏见信号
Cross-Encoder打分：将文章与偏见指标配对输入Cross-Encoder，输出该维度的偏见分数
可解释性：嵌入的每个维度对应一个具体的政治话题偏见，可直接解读

实验关键数据¶

主实验（政治偏见分类）¶

数据集	PRISM	POLITICS	AnglE	CQG-MBQA
NewsSpectrum	86.1%	51.3%	48.4%	45.1%
BigNews	73.5%	85.7%	-	-
BASIL (OOD)	40.0%	31.7%	-	-

注：POLITICS 在 BigNews 上性能更高可能因训练/测试集重叠

消融实验¶

参数	最优值	说明
聚类数 k	1,000	太少→话题多样性不足，太多→噪声
Top-m 话题	9	m=1 表示不足，m=9 后稳定
偏见离散度阈值	自动	高离散度话题更具区分力

关键发现¶

可解释的偏见嵌入在分类性能上也优于通用嵌入
偏见指标挖掘能有效发现左/右翼媒体的话题级差异
OOD 泛化能力强：在 BASIL 人工标注语料上比 POLITICS 高 8.3%
多样化检索：在相同多样性水平下保持更高的内容相关性

亮点与洞察¶

将偏见编码为可解释的维度而非黑盒嵌入，是一个重要的设计选择
弱监督的指标挖掘方法可扩展到其他类型的偏见分析

局限性 / 可改进方向¶

依赖媒体源级标签作为弱监督信号
主要在英语新闻上评估

评分¶

新颖性: ⭐⭐⭐⭐ 首个政治偏见专用嵌入方法
实验充分度: ⭐⭐⭐⭐ 两个大规模数据集
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐ 对政治偏见分析有实际应用价值