跳转至

Watching the Watchers: Exposing Gender Disparities in Machine Translation Quality Estimation

会议: ACL 2025
arXiv: 2410.10995
代码: GitHub
领域: 多语言/机器翻译 (Multilingual / MT)
关键词: 质量评估, 性别偏差, 机器翻译, 公平性, QE指标

一句话总结

本文系统揭示了机器翻译质量评估 (QE) 指标中的性别偏差:在源语言性别模糊时阳性形式得分高于阴性形式,在有上下文线索时阴性形式的错误率更高,且偏差会通过数据过滤和质量感知解码传播到下游 MT 系统。

研究背景与动机

领域现状

领域现状:研究问题:** QE 指标用于自动评估翻译质量,已广泛应用于数据过滤、训练和解码等翻译流程中。然而,这些指标是否编码了社会偏差——特别是性别偏差——尚未被系统研究。

现有方法的不足:

核心矛盾

核心矛盾:评估指标研究忽略偏差:** 大量工作评估自动指标与人类判断的相关性,但未考察性别公平性

现有痛点

现有痛点:MT 偏差研究仅聚焦系统输出:** 先前工作主要检测翻译系统的性别偏差,未研究评估指标本身

解决思路

解决思路:QE 偏差的下游影响未知:** 偏差的 QE 指标如何影响数据过滤和质量感知解码尚未探索

核心动机: 定义 QE 指标的性别偏差,系统测量并揭示其在 MT 流程中的传播效应。

方法详解

整体框架

  1. 偏差定义: 提出 QE 指标性别偏差的两个条件
  2. 控制实验设计: 使用最小编辑对比对,隔离性别因素
  3. 多维度评估: 性别模糊/明确场景 × 多种指标 × 多种语言
  4. 下游影响: 数据过滤和质量感知解码实验

关键设计

1. 偏差定义: QE 指标存在性别偏差当且仅当: - (i) 源语言性别模糊时,系统性地给某一性别形式更高分 - (ii) 有性别线索时,对不同性别的错误率不均等

2. 实验设置: - 性别模糊场景: 使用 MT-GenEval 和 GATE 数据集的最小编辑对比对,计算阴阳性形式的 QE 评分比 \(QE(s, h_F) / QE(s, h_M)\),理想值为 1 - 性别明确场景(句内线索): 使用 MT-GenEval 的反事实子集,计算错误率 ER 和性别间错误率比 \(\Phi(S^F, S^M) = ER(S^F) / ER(S^M)\),理想值为 1 - 性别明确场景(句外线索): 使用上下文消歧,测试上下文感知指标的性别敏感度

3. QE 指标覆盖: 11 个 SOTA 指标,包括: - 神经指标:CometKiwi 22/23 XL/XXL, xCOMET XL/XXL, MetricX 23 L/XL - GEMBA 指标:Mistral 7B, Gemma 2 9B, Llama 3.1 70B, GPT-4o

损失函数

本文为评估研究,不涉及模型训练。核心度量指标为 QE 评分比和错误率比。

实验

主实验结果 — 性别模糊场景

大多数 QE 指标在性别模糊源语言中对阳性形式给出更高分。CometKiwi 模型越大偏差越明显(22 < 23 XL < 23 XXL),MetricX 最接近公平但敏感度不足。

主实验结果 — 性别明确场景(句内线索)

指标 错误率 ER↓ 错误率比 Φ→1
CometKiwi 22 0.11 1.70
CometKiwi 23 XL 0.09 1.18
CometKiwi 23 XXL 0.07 0.87
xCOMET XL 0.10 1.81
xCOMET XXL 0.08 1.32
MetricX 23 L 0.31 1.25
MetricX 23 XL 0.12 1.19
GPT 4o 0.16 1.15

大多数指标对阴性实体的错误率高于阳性实体,CometKiwi 23 XXL 是唯一接近公平的指标。

消融实验 — 下游影响

场景 关键发现
数据过滤 阈值 0.8 保留 75% 阳性但仅 63% 阴性实例(CometKiwi 23 XXL)
MT 质量评估 评估 Google Translate 输出时偏差仍存在(Φ 1.17-1.96)
质量感知解码 (QAD) QAD + CometKiwi 22 加剧偏差 (δ_M: -45.7→-46.8);QAD + CometKiwi 23 XXL 改善偏差 (δ_M: -45.7→-43.5)

关键发现

  1. 阳性偏好普遍: 性别模糊时,几乎所有 QE 指标系统性地给阳性形式更高分
  2. 中性形式被惩罚: 性别中性翻译的 QE 评分一致低于有性别标记的翻译
  3. 翻译上下文加剧偏差: 使用翻译上下文虽降低总错误率,但将性别错误率比放大约 3 倍
  4. GEMBA 指标粗粒度: 基于 LLM 的 GEMBA 指标倾向于给出粗粒度评分(85/90/95/100),无法捕捉性别差异
  5. 偏差传播效应: 偏差的 QE 指标在数据过滤中不均匀淘汰阴性数据,在质量感知解码中放大 MT 系统的性别偏差
  6. CometKiwi 23 XXL 帕累托最优: 在准确性和公平性之间达到最佳平衡

亮点与洞察

  • 首次系统定义和测量 QE 指标中的性别偏差,填补了重要研究空白
  • 实验设计精巧:使用最小编辑对比对隔离性别因素,覆盖 11 个指标 × 3 个数据集 × 8 种语言
  • 揭示了偏差的下游传播效应:从评估指标到数据过滤到翻译系统
  • 提出公平性与准确性的联合评估框架(帕累托前沿分析)

局限与展望

  • 仅研究句子级翻译,未覆盖文档级或对话级 MT 场景
  • 性别分析主要基于二元分类,对非二元性别覆盖有限(仅通过 mGeNTE 中性实验部分涉及)
  • GEMBA 指标仅在 zero-shot 配置下测试,few-shot 策略可能改善结果
  • 上下文感知实验使用推理时策略注入上下文,而非训练时微调

相关工作

  • MT 指标评估: WMT 共享任务 (Kocmi et al., 2021; Freitag et al., 2023) 聚焦指标与人类判断的相关性,但未涉及偏差
  • MT 性别偏差: Stanovsky et al. (2019), Vanmassenhove et al. (2018) 检测翻译系统输出中的性别偏差;本文转向评估指标本身
  • NLG 指标偏差: Qiu et al. (2023) 研究图像描述指标的性别偏差;Sun et al. (2022) 量化 NLG 指标的社会偏差。但无针对 QE 指标的研究
  • QE 模型: CometKiwi (Rei et al., 2022/2023), xCOMET (Guerreiro et al., 2024), GEMBA (Kocmi & Federmann, 2023) 为当前 SOTA

评分

维度 分数
新颖性 ⭐⭐⭐⭐⭐
技术深度 ⭐⭐⭐⭐
实验充分性 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐⭐
实用价值 ⭐⭐⭐⭐⭐
综合评价 8.8/10

相关论文