跳转至

Bias Attribution in Filipino Language Models: Extending a Bias Interpretability Metric for Application on Agglutinative Languages

会议: ACL 2025
arXiv: 2506.07249
代码: https://github.com/gamboalance/bias_attribution_filipino
领域: LLM / AI公平性
关键词: 偏见归因, 菲律宾语, 黏着语, 可解释性, token归因

一句话总结

将信息论偏见归因分数指标扩展到黏着语(菲律宾语),通过对子词分数取均值来处理复杂词素结构,在 4 个多语言 PLM 上揭示菲律宾语模型的偏见由实体类主题词(人物/物品/关系)驱动,与英语中动作类主题词(犯罪/性行为)形成鲜明对比。

研究背景与动机

领域现状:LLM 偏见研究越来越多关注多语言和非英语场景,但大多停留在偏见评估层面,很少涉及偏见的可解释性——即哪些 token 导致了偏见行为。

现有痛点:Gamboa & Lee (2024) 提出了基于信息论的偏见归因分数指标,但仅适用于英语。对于黏着语(如菲律宾语),一个词包含多个语素/token,直接应用归因方法会产生多个不一致的分数。

核心矛盾:黏着语的词素结构复杂(如 nakikipagtalik = na+ki+ki+pag+talik),PLM 分词器会将其拆分为多个 token,每个 token 得到不同的归因分数——如何聚合为词级别的偏见贡献?

本文目标 将偏见归因方法适配到黏着语,并揭示菲律宾语 PLM 中偏见的语义模式。

切入角度:对被分词器拆分的 token 取归因分数的均值作为整词的归因分数,然后通过语义标注分析偏见贡献 token 的主题类别。

核心 idea:子词归因分数取均值适配黏着语,发现菲律宾语模型的偏见由"人/物/关系"(实体)驱动而非英语中的"行为"驱动。

方法详解

整体框架

Filipino CrowS-Pairs 数据集 → 4 个多语言 PLM → 计算 token 归因分数 b(u) → 子词聚合 → 语义标注分析

关键设计

  1. 偏见归因分数 b(u):

    • 功能:量化每个非修饰 token 对模型偏见决策的贡献
    • 核心思路:对于 CrowS-Pairs 中的每对句子,将共享 token 在两个上下文(更偏见/更不偏见)中分别遮盖,比较模型预测该 token 的概率分布与真实分布的 JSD 距离差。\(b(u) = \sqrt{JSD(P_{u,more} \| G_u)} - \sqrt{JSD(P_{u,less} \| G_u)}\)
    • 负分 → 该 token 推动模型趋向偏见;正分 → 推动模型远离偏见
  2. 黏着语适配(核心贡献):

    • 功能:当一个词被分词器拆分为多个子词时,取各子词归因分数的均值
    • \(b(u) = \frac{1}{n}\sum_{i=1}^{n} b(t_i)\)
    • 设计动机:黏着语中一个词(如 nakikipagtalik)可能被拆为 5 个 token,需要聚合为词级别的偏见贡献才有可解释性
  3. 语义分析

    • 用 googletrans 翻译为英语 → pymusas 语义标注 → 统计偏见贡献 token 的语义类别分布
    • 过滤出现少于 10 次的低频词

实验关键数据

主实验(模型偏见分数,理想 50%)

模型 训练语言 性别偏见 性取向偏见 总体
GPT-2 全球 53.43 68.49 58.82
RoBERTa-Tagalog 菲律宾语 53.43 73.97 60.78
SEA-LION-3B 英语+东南亚 74.81 67.12 72.06
SeaLLMs-v3-7B 英语+东南亚 51.14 52.06 51.47

语义分析:偏见驱动 token 的主题类别

语义类别 菲律宾语模型 英语模型
关系(朋友/恋人) 50-60% 偏见贡献 较低
人物/物品 高占比 较低
犯罪/性行为 较低 主要驱动
助人行为 较低 高占比

关键发现

  • 菲律宾语偏见由实体驱动,英语偏见由行为驱动——反映了不同文化中偏见的表达方式差异
  • SEA-LION-3B 偏见最严重(72.06%),SeaLLMs-v3-7B 最接近公平(51.47%)——更大的模型不一定更偏见
  • "关系"类词汇(kaibigan/kasintahan 等)在所有 4 个模型中都是偏见贡献最高的语义类别
  • 纯菲律宾语训练的 RoBERTa-Tagalog 在性取向偏见上最高(73.97%),可能是训练数据中的文化偏见

亮点与洞察

  • 跨语言偏见的质性差异:不是"偏见程度不同"而是"偏见机制不同"——菲律宾语通过实体关联产生偏见,英语通过行为关联
  • 黏着语适配极简但有效:子词均值聚合方法简单、通用,可直接应用到其他黏着语(土耳其语/日语/韩语)
  • 首次将偏见可解释性方法应用于非英语:从"量化多少偏见"提升到"理解偏见从何而来"

局限与展望

  • Filipino CrowS-Pairs 仅 204 对,数据量偏小
  • 仅覆盖性别和性取向两类偏见
  • 子词均值可能过于简化——不同语素对整词意义的贡献可能不等权
  • 语义分析依赖机器翻译(可能引入噪声)
  • 未探索缓解偏见的干预方法

相关工作与启发

  • vs Gamboa & Lee (2024):他们仅在英语上验证,本文扩展到菲律宾语并发现跨语言偏见机制差异
  • vs 多语言偏见评估研究:大多只量化偏见程度,本文深入到 token 级别的因果分析
  • 方法论可直接推广到其他黏着语的偏见分析

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将偏见归因方法应用于非英语黏着语,发现实质性跨文化差异
  • 实验充分度: ⭐⭐⭐ 4 个模型但数据集较小(204对),仅两类偏见
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,语言学背景充分
  • 价值: ⭐⭐⭐⭐ 对多语言偏见可解释性研究有开创性意义

相关论文