跳转至

AskQE: Question Answering as Automatic Evaluation for Machine Translation

会议: ACL 2025 (Findings) arXiv: 2504.11582 代码: GitHub 领域: NLP理解/机器翻译 关键词: machine translation evaluation, quality estimation, question answering, QA-based evaluation, error detection

一句话总结

提出 AskQE——基于问答的机器翻译质量估计框架,通过对源文本生成问题、分别在源文本和回译输出上回答、对比答案差异来检测翻译错误,帮助不懂目标语言的用户判断翻译是否可接受,在 BioMQM 数据集上 Kendall's τ 相关和决策准确率均优于现有 QE 指标。

研究背景与动机

  1. 领域现状:MT 质量估计(QE)帮助用户在无参考译文的情况下评估翻译质量。现有 QE 方法产出单一分数(xCOMET-QE)或错误标注(在目标语言中高亮错误词),但不适合不懂目标语言的用户。
  2. 现有痛点:(a) 单一分数难以解释——用户不知道为什么翻译有问题;(b) 目标语言错误标注对单语用户无用;(c) 高风险场景(如 COVID-19 临床指南翻译)需要可操作的反馈来决定"接受还是拒绝"。
  3. 核心矛盾:单语英语用户如何判断法语翻译是否够好?需要一种在源语言端提供可解释反馈的 QE 方法。
  4. 本文要解决什么:设计一个基于 QG/QA 的框架,生成关于源文本的问题,检测翻译是否完整准确地传达了源文本信息。
  5. 切入角度:如果翻译正确,基于源文本和基于回译的回答应该一致;不一致 = 翻译有错误。这与摘要事实一致性评估的 QA 范式类似。
  6. 核心 idea:QG(从源文本生成问题)→ QA(在源文本上回答得到 \(A_{src}\),在回译上回答得到 \(A_{bt}\))→ 答案差异 = 翻译质量信号。

方法详解

整体框架

输入:源文本 \(X_{src}\) + 机器翻译 \(Y_{tgt}\)。输出:AskQE 分数 + 可解释的 QA 对。

关键设计

  1. Question Generation (QG)
  2. 做什么:从 \(X_{src}\) 生成一组涵盖关键信息的问题
  3. 核心思路:两步 NLI pipeline——(a) 用 GPT-4o 提取原子事实;(b) 用 NLI 分类器过滤非蕴含事实;(c) 用 LLaMA-3 70B 基于 \(X_{src}\) + 过滤后事实生成问题
  4. 设计动机:事实引导确保问题全面覆盖源文本信息,避免遗漏关键内容

  5. Question Answering (QA)——双路回答

  6. 源端回答 \(A_{src}\):用 \(X_{src}\) 作为上下文,LLM 回答每个问题 → 参考答案
  7. 回译端回答 \(A_{bt}\):先将 \(Y_{tgt}\) 回译为英语得到 \(Y_{bt}\)(Google Translate),再用 \(Y_{bt}\) 作为上下文回答 → 预测答案
  8. 设计动机:使用回译而非跨语言 QA,因为英语 QA 比跨语言 QA 更可靠

  9. 答案对比与评分

  10. 做什么:计算 \(A_{src}\)\(A_{bt}\) 的相似度作为翻译质量分数
  11. 相似度指标:Word-F1、Exact Match、BLEU、chrF、SentenceBERT
  12. AskQE 分数 = 所有问题答案相似度的平均值:\(\text{AskQE}(Y_{tgt}) = \frac{1}{N}\sum_{i=1}^N D(A_{src}^i, A_{bt}^i)\)

数据集

  • ContraTICO(控制实验):基于 TICO-19 COVID 翻译数据集,用 GPT-4o 生成 8 种人工扰动(5 种轻微 + 3 种严重),5 个语言对
  • BioMQM(真实错误):生物医学域 MT 数据集,专业译者用 MQM 标注错误,5 个语言对

实验关键数据

错误严重度检测 (ContraTICO, LLaMA-3 70B)

扰动类型 严重度 AskQE F1 AskQE EM
拼写错误 Minor 0.815 0.682
词序调换 Minor 0.756 0.610
同义替换 Minor 0.741 0.589
语义篡改 Critical 0.496 0.384
信息省略 Critical 0.558 0.425
含义扩展 Critical 0.567 0.442

与 QE 指标相关性 (Pearson r)

AskQE 指标 vs xCOMET-QE vs MetricX-QE vs BT-Score
F1 0.871 -0.923 0.877
EM 0.878 -0.919 0.882

BioMQM 真实错误评估

指标 Kendall's τ 决策准确率
xCOMET-QE 0.42 68.5%
MetricX-QE 0.39 65.2%
BT-Score 0.35 62.8%
AskQE (F1) 0.45 71.3%

关键发现

  • AskQE 对严重错误极为敏感:Critical 错误的 F1 远低于 Minor(差距 >0.2),说明语义篡改/省略能被有效捕获
  • 与 QA 评估在摘要上的成功类似:QA 范式从摘要一致性评估成功迁移到 MT 评估
  • 在决策准确率上超越现有 QE:AskQE 的可操作性更强——不仅给分数,还给出具体的"哪个问题答案不一致"
  • 回译比跨语言 QA 更可靠:英语 QA 系统的准确性显著高于跨语言 QA
  • LLaMA-3 70B + NLI 事实引导是最优配置:在 15 种配置中综合最优

亮点与洞察

  • "功能解释"而非"机械解释":不是告诉用户"第3个词翻错了"(用户看不懂目标语言),而是告诉用户"翻译说的是X而不是Y"——这对单语用户真正有用
  • 可操作的决策支持:用户可以逐个审查 QA 对,自行判断哪些错误可以接受——比单一分数更透明
  • 高风险场景的精准定位:在 COVID-19 临床指南等场景中,一个关键信息的遗漏可能危及生命,AskQE 能精确定位这类错误
  • 框架简洁优雅:QG → 双路 QA → 比较,不需要训练任何专门模型,用现成 LLM 即可

局限性 / 可改进方向

  • 依赖回译质量:回译引入额外噪声,低资源语言对的回译可能不可靠
  • 仅支持句级评估:未扩展到段落/文档级翻译评估
  • 问题生成可能不完整:如果关键信息未被提取为原子事实,则对应错误无法被检测
  • 计算成本:每句需多次 LLM 调用(事实提取+QG+2×QA),不适合大规模批量评估
  • 仅英语作为源语言:未验证非英语源语言的效果

相关工作与启发

  • vs QAFactEval (Fabbri et al., 2022):QAFactEval 用 QA 评估摘要一致性,AskQE 将此范式迁移到 MT 评估
  • vs xCOMET-QE (Guerreiro et al., 2024):xCOMET 给分数+目标语言错误标注,AskQE 给源端 QA 解释
  • vs MTEQA (Krubiński et al., 2021):MTEQA 需要参考译文,AskQE 无需参考——真正的 QE 场景

评分

  • 新颖性: ⭐⭐⭐⭐ QA 评估从摘要→MT 的迁移有创意,NLI 事实引导是好设计
  • 实验充分度: ⭐⭐⭐⭐⭐ 控制实验(ContraTICO)+真实错误(BioMQM)+5语言对+15配置+决策模拟
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,实际场景驱动,图2的框架图极清晰
  • 价值: ⭐⭐⭐⭐⭐ 对高风险翻译场景有直接实用价值,可操作性远超现有 QE