Bias Attribution in Filipino Language Models: Extending a Bias Interpretability Metric for Application on Agglutinative Languages¶

会议: ACL 2025
arXiv: 2506.07249
代码: https://github.com/gamboalance/bias_attribution_filipino
领域: LLM / AI公平性
关键词: 偏见归因, 菲律宾语, 黏着语, 可解释性, token归因

一句话总结¶

将信息论偏见归因分数指标扩展到黏着语（菲律宾语），通过对子词分数取均值来处理复杂词素结构，在 4 个多语言 PLM 上揭示菲律宾语模型的偏见由实体类主题词（人物/物品/关系）驱动，与英语中动作类主题词（犯罪/性行为）形成鲜明对比。

研究背景与动机¶

领域现状：LLM 偏见研究越来越多关注多语言和非英语场景，但大多停留在偏见评估层面，很少涉及偏见的可解释性——即哪些 token 导致了偏见行为。

现有痛点：Gamboa & Lee (2024) 提出了基于信息论的偏见归因分数指标，但仅适用于英语。对于黏着语（如菲律宾语），一个词包含多个语素/token，直接应用归因方法会产生多个不一致的分数。

核心矛盾：黏着语的词素结构复杂（如 nakikipagtalik = na+ki+ki+pag+talik），PLM 分词器会将其拆分为多个 token，每个 token 得到不同的归因分数——如何聚合为词级别的偏见贡献？

本文目标 将偏见归因方法适配到黏着语，并揭示菲律宾语 PLM 中偏见的语义模式。

切入角度：对被分词器拆分的 token 取归因分数的均值作为整词的归因分数，然后通过语义标注分析偏见贡献 token 的主题类别。

核心 idea：子词归因分数取均值适配黏着语，发现菲律宾语模型的偏见由"人/物/关系"（实体）驱动而非英语中的"行为"驱动。

方法详解¶

整体框架¶

Filipino CrowS-Pairs 数据集 → 4 个多语言 PLM → 计算 token 归因分数 b(u) → 子词聚合 → 语义标注分析

关键设计¶

偏见归因分数 b(u):
- 功能：量化每个非修饰 token 对模型偏见决策的贡献
- 核心思路：对于 CrowS-Pairs 中的每对句子，将共享 token 在两个上下文（更偏见/更不偏见）中分别遮盖，比较模型预测该 token 的概率分布与真实分布的 JSD 距离差。\(b(u) = \sqrt{JSD(P_{u,more} \| G_u)} - \sqrt{JSD(P_{u,less} \| G_u)}\)
- 负分 → 该 token 推动模型趋向偏见；正分 → 推动模型远离偏见
黏着语适配（核心贡献）:
- 功能：当一个词被分词器拆分为多个子词时，取各子词归因分数的均值
- \(b(u) = \frac{1}{n}\sum_{i=1}^{n} b(t_i)\)
- 设计动机：黏着语中一个词（如 nakikipagtalik）可能被拆为 5 个 token，需要聚合为词级别的偏见贡献才有可解释性
语义分析：
- 用 googletrans 翻译为英语 → pymusas 语义标注 → 统计偏见贡献 token 的语义类别分布
- 过滤出现少于 10 次的低频词

实验关键数据¶

主实验（模型偏见分数，理想 50%）¶

模型	训练语言	性别偏见	性取向偏见	总体
GPT-2	全球	53.43	68.49	58.82
RoBERTa-Tagalog	菲律宾语	53.43	73.97	60.78
SEA-LION-3B	英语+东南亚	74.81	67.12	72.06
SeaLLMs-v3-7B	英语+东南亚	51.14	52.06	51.47

语义分析：偏见驱动 token 的主题类别¶

语义类别	菲律宾语模型	英语模型
关系（朋友/恋人）	50-60% 偏见贡献	较低
人物/物品	高占比	较低
犯罪/性行为	较低	主要驱动
助人行为	较低	高占比

关键发现¶

菲律宾语偏见由实体驱动，英语偏见由行为驱动——反映了不同文化中偏见的表达方式差异
SEA-LION-3B 偏见最严重（72.06%），SeaLLMs-v3-7B 最接近公平（51.47%）——更大的模型不一定更偏见
"关系"类词汇（kaibigan/kasintahan 等）在所有 4 个模型中都是偏见贡献最高的语义类别
纯菲律宾语训练的 RoBERTa-Tagalog 在性取向偏见上最高（73.97%），可能是训练数据中的文化偏见

亮点与洞察¶

跨语言偏见的质性差异：不是"偏见程度不同"而是"偏见机制不同"——菲律宾语通过实体关联产生偏见，英语通过行为关联
黏着语适配极简但有效：子词均值聚合方法简单、通用，可直接应用到其他黏着语（土耳其语/日语/韩语）
首次将偏见可解释性方法应用于非英语：从"量化多少偏见"提升到"理解偏见从何而来"

局限与展望¶

Filipino CrowS-Pairs 仅 204 对，数据量偏小
仅覆盖性别和性取向两类偏见
子词均值可能过于简化——不同语素对整词意义的贡献可能不等权
语义分析依赖机器翻译（可能引入噪声）
未探索缓解偏见的干预方法

评分¶

新颖性: ⭐⭐⭐⭐ 首次将偏见归因方法应用于非英语黏着语，发现实质性跨文化差异
实验充分度: ⭐⭐⭐ 4 个模型但数据集较小（204对），仅两类偏见
写作质量: ⭐⭐⭐⭐ 方法描述清晰，语言学背景充分
价值: ⭐⭐⭐⭐ 对多语言偏见可解释性研究有开创性意义