AskQE: Question Answering as Automatic Evaluation for Machine Translation¶

会议: ACL 2025 (Findings) arXiv: 2504.11582 代码: GitHub 领域: NLP理解/机器翻译 关键词: machine translation evaluation, quality estimation, question answering, QA-based evaluation, error detection

一句话总结¶

提出 AskQE——基于问答的机器翻译质量估计框架，通过对源文本生成问题、分别在源文本和回译输出上回答、对比答案差异来检测翻译错误，帮助不懂目标语言的用户判断翻译是否可接受，在 BioMQM 数据集上 Kendall's τ 相关和决策准确率均优于现有 QE 指标。

研究背景与动机¶

领域现状：MT 质量估计（QE）帮助用户在无参考译文的情况下评估翻译质量。现有 QE 方法产出单一分数（xCOMET-QE）或错误标注（在目标语言中高亮错误词），但不适合不懂目标语言的用户。
现有痛点：(a) 单一分数难以解释——用户不知道为什么翻译有问题；(b) 目标语言错误标注对单语用户无用；(c) 高风险场景（如 COVID-19 临床指南翻译）需要可操作的反馈来决定"接受还是拒绝"。
核心矛盾：单语英语用户如何判断法语翻译是否够好？需要一种在源语言端提供可解释反馈的 QE 方法。
本文要解决什么：设计一个基于 QG/QA 的框架，生成关于源文本的问题，检测翻译是否完整准确地传达了源文本信息。
切入角度：如果翻译正确，基于源文本和基于回译的回答应该一致；不一致 = 翻译有错误。这与摘要事实一致性评估的 QA 范式类似。
核心 idea：QG（从源文本生成问题）→ QA（在源文本上回答得到 \(A_{src}\)，在回译上回答得到 \(A_{bt}\)）→ 答案差异 = 翻译质量信号。

方法详解¶

整体框架¶

输入：源文本 \(X_{src}\) + 机器翻译 \(Y_{tgt}\)。输出：AskQE 分数 + 可解释的 QA 对。

关键设计¶

Question Generation (QG)
做什么：从 \(X_{src}\) 生成一组涵盖关键信息的问题
核心思路：两步 NLI pipeline——(a) 用 GPT-4o 提取原子事实；(b) 用 NLI 分类器过滤非蕴含事实；(c) 用 LLaMA-3 70B 基于 \(X_{src}\) + 过滤后事实生成问题
设计动机：事实引导确保问题全面覆盖源文本信息，避免遗漏关键内容
Question Answering (QA)——双路回答
源端回答 \(A_{src}\)：用 \(X_{src}\) 作为上下文，LLM 回答每个问题 → 参考答案
回译端回答 \(A_{bt}\)：先将 \(Y_{tgt}\) 回译为英语得到 \(Y_{bt}\)（Google Translate），再用 \(Y_{bt}\) 作为上下文回答 → 预测答案
设计动机：使用回译而非跨语言 QA，因为英语 QA 比跨语言 QA 更可靠
答案对比与评分
做什么：计算 \(A_{src}\) 和 \(A_{bt}\) 的相似度作为翻译质量分数
相似度指标：Word-F1、Exact Match、BLEU、chrF、SentenceBERT
AskQE 分数 = 所有问题答案相似度的平均值：\(\text{AskQE}(Y_{tgt}) = \frac{1}{N}\sum_{i=1}^N D(A_{src}^i, A_{bt}^i)\)

数据集¶

ContraTICO（控制实验）：基于 TICO-19 COVID 翻译数据集，用 GPT-4o 生成 8 种人工扰动（5 种轻微 + 3 种严重），5 个语言对
BioMQM（真实错误）：生物医学域 MT 数据集，专业译者用 MQM 标注错误，5 个语言对

实验关键数据¶

错误严重度检测 (ContraTICO, LLaMA-3 70B)¶

扰动类型	严重度	AskQE F1	AskQE EM
拼写错误	Minor	0.815	0.682
词序调换	Minor	0.756	0.610
同义替换	Minor	0.741	0.589
语义篡改	Critical	0.496	0.384
信息省略	Critical	0.558	0.425
含义扩展	Critical	0.567	0.442

与 QE 指标相关性 (Pearson r)¶

AskQE 指标	vs xCOMET-QE	vs MetricX-QE	vs BT-Score
F1	0.871	-0.923	0.877
EM	0.878	-0.919	0.882

BioMQM 真实错误评估¶

指标	Kendall's τ	决策准确率
xCOMET-QE	0.42	68.5%
MetricX-QE	0.39	65.2%
BT-Score	0.35	62.8%
AskQE (F1)	0.45	71.3%

关键发现¶

AskQE 对严重错误极为敏感：Critical 错误的 F1 远低于 Minor（差距 >0.2），说明语义篡改/省略能被有效捕获
与 QA 评估在摘要上的成功类似：QA 范式从摘要一致性评估成功迁移到 MT 评估
在决策准确率上超越现有 QE：AskQE 的可操作性更强——不仅给分数，还给出具体的"哪个问题答案不一致"
回译比跨语言 QA 更可靠：英语 QA 系统的准确性显著高于跨语言 QA
LLaMA-3 70B + NLI 事实引导是最优配置：在 15 种配置中综合最优

亮点与洞察¶

"功能解释"而非"机械解释"：不是告诉用户"第3个词翻错了"（用户看不懂目标语言），而是告诉用户"翻译说的是X而不是Y"——这对单语用户真正有用
可操作的决策支持：用户可以逐个审查 QA 对，自行判断哪些错误可以接受——比单一分数更透明
高风险场景的精准定位：在 COVID-19 临床指南等场景中，一个关键信息的遗漏可能危及生命，AskQE 能精确定位这类错误
框架简洁优雅：QG → 双路 QA → 比较，不需要训练任何专门模型，用现成 LLM 即可

局限性 / 可改进方向¶

依赖回译质量：回译引入额外噪声，低资源语言对的回译可能不可靠
仅支持句级评估：未扩展到段落/文档级翻译评估
问题生成可能不完整：如果关键信息未被提取为原子事实，则对应错误无法被检测
计算成本：每句需多次 LLM 调用（事实提取+QG+2×QA），不适合大规模批量评估
仅英语作为源语言：未验证非英语源语言的效果

评分¶

新颖性: ⭐⭐⭐⭐ QA 评估从摘要→MT 的迁移有创意，NLI 事实引导是好设计
实验充分度: ⭐⭐⭐⭐⭐ 控制实验(ContraTICO)+真实错误(BioMQM)+5语言对+15配置+决策模拟
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，实际场景驱动，图2的框架图极清晰
价值: ⭐⭐⭐⭐⭐ 对高风险翻译场景有直接实用价值，可操作性远超现有 QE