Bias Attribution in Filipino Language Models: Extending a Bias Interpretability Metric for Application on Agglutinative Languages¶
会议: ACL 2025
arXiv: 2506.07249
代码: https://github.com/gamboalance/bias_attribution_filipino
领域: LLM / AI公平性
关键词: 偏见归因, 菲律宾语, 黏着语, 可解释性, token归因
一句话总结¶
将信息论偏见归因分数指标扩展到黏着语(菲律宾语),通过对子词分数取均值来处理复杂词素结构,在 4 个多语言 PLM 上揭示菲律宾语模型的偏见由实体类主题词(人物/物品/关系)驱动,与英语中动作类主题词(犯罪/性行为)形成鲜明对比。
研究背景与动机¶
领域现状:LLM 偏见研究越来越多关注多语言和非英语场景,但大多停留在偏见评估层面,很少涉及偏见的可解释性——即哪些 token 导致了偏见行为。
现有痛点:Gamboa & Lee (2024) 提出了基于信息论的偏见归因分数指标,但仅适用于英语。对于黏着语(如菲律宾语),一个词包含多个语素/token,直接应用归因方法会产生多个不一致的分数。
核心矛盾:黏着语的词素结构复杂(如 nakikipagtalik = na+ki+ki+pag+talik),PLM 分词器会将其拆分为多个 token,每个 token 得到不同的归因分数——如何聚合为词级别的偏见贡献?
本文目标 将偏见归因方法适配到黏着语,并揭示菲律宾语 PLM 中偏见的语义模式。
切入角度:对被分词器拆分的 token 取归因分数的均值作为整词的归因分数,然后通过语义标注分析偏见贡献 token 的主题类别。
核心 idea:子词归因分数取均值适配黏着语,发现菲律宾语模型的偏见由"人/物/关系"(实体)驱动而非英语中的"行为"驱动。
方法详解¶
整体框架¶
Filipino CrowS-Pairs 数据集 → 4 个多语言 PLM → 计算 token 归因分数 b(u) → 子词聚合 → 语义标注分析
关键设计¶
-
偏见归因分数 b(u):
- 功能:量化每个非修饰 token 对模型偏见决策的贡献
- 核心思路:对于 CrowS-Pairs 中的每对句子,将共享 token 在两个上下文(更偏见/更不偏见)中分别遮盖,比较模型预测该 token 的概率分布与真实分布的 JSD 距离差。\(b(u) = \sqrt{JSD(P_{u,more} \| G_u)} - \sqrt{JSD(P_{u,less} \| G_u)}\)
- 负分 → 该 token 推动模型趋向偏见;正分 → 推动模型远离偏见
-
黏着语适配(核心贡献):
- 功能:当一个词被分词器拆分为多个子词时,取各子词归因分数的均值
- \(b(u) = \frac{1}{n}\sum_{i=1}^{n} b(t_i)\)
- 设计动机:黏着语中一个词(如 nakikipagtalik)可能被拆为 5 个 token,需要聚合为词级别的偏见贡献才有可解释性
-
语义分析:
- 用 googletrans 翻译为英语 → pymusas 语义标注 → 统计偏见贡献 token 的语义类别分布
- 过滤出现少于 10 次的低频词
实验关键数据¶
主实验(模型偏见分数,理想 50%)¶
| 模型 | 训练语言 | 性别偏见 | 性取向偏见 | 总体 |
|---|---|---|---|---|
| GPT-2 | 全球 | 53.43 | 68.49 | 58.82 |
| RoBERTa-Tagalog | 菲律宾语 | 53.43 | 73.97 | 60.78 |
| SEA-LION-3B | 英语+东南亚 | 74.81 | 67.12 | 72.06 |
| SeaLLMs-v3-7B | 英语+东南亚 | 51.14 | 52.06 | 51.47 |
语义分析:偏见驱动 token 的主题类别¶
| 语义类别 | 菲律宾语模型 | 英语模型 |
|---|---|---|
| 关系(朋友/恋人) | 50-60% 偏见贡献 | 较低 |
| 人物/物品 | 高占比 | 较低 |
| 犯罪/性行为 | 较低 | 主要驱动 |
| 助人行为 | 较低 | 高占比 |
关键发现¶
- 菲律宾语偏见由实体驱动,英语偏见由行为驱动——反映了不同文化中偏见的表达方式差异
- SEA-LION-3B 偏见最严重(72.06%),SeaLLMs-v3-7B 最接近公平(51.47%)——更大的模型不一定更偏见
- "关系"类词汇(kaibigan/kasintahan 等)在所有 4 个模型中都是偏见贡献最高的语义类别
- 纯菲律宾语训练的 RoBERTa-Tagalog 在性取向偏见上最高(73.97%),可能是训练数据中的文化偏见
亮点与洞察¶
- 跨语言偏见的质性差异:不是"偏见程度不同"而是"偏见机制不同"——菲律宾语通过实体关联产生偏见,英语通过行为关联
- 黏着语适配极简但有效:子词均值聚合方法简单、通用,可直接应用到其他黏着语(土耳其语/日语/韩语)
- 首次将偏见可解释性方法应用于非英语:从"量化多少偏见"提升到"理解偏见从何而来"
局限与展望¶
- Filipino CrowS-Pairs 仅 204 对,数据量偏小
- 仅覆盖性别和性取向两类偏见
- 子词均值可能过于简化——不同语素对整词意义的贡献可能不等权
- 语义分析依赖机器翻译(可能引入噪声)
- 未探索缓解偏见的干预方法
相关工作与启发¶
- vs Gamboa & Lee (2024):他们仅在英语上验证,本文扩展到菲律宾语并发现跨语言偏见机制差异
- vs 多语言偏见评估研究:大多只量化偏见程度,本文深入到 token 级别的因果分析
- 方法论可直接推广到其他黏着语的偏见分析
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将偏见归因方法应用于非英语黏着语,发现实质性跨文化差异
- 实验充分度: ⭐⭐⭐ 4 个模型但数据集较小(204对),仅两类偏见
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,语言学背景充分
- 价值: ⭐⭐⭐⭐ 对多语言偏见可解释性研究有开创性意义
相关论文¶
- [AAAI 2026] Hypothesis Generation via LLM-Automated Language Bias for ILP
- [NeurIPS 2025] ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts
- [ACL 2025] Normalized AOPC: Fixing Misleading Faithfulness Metrics for Feature Attribution Explainability
- [ACL 2025] Mechanistic Interpretability of Emotion Inference in Large Language Models
- [ACL 2025] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations