跳转至

Machine Translation Models are Zero-Shot Detectors of Translation Direction

会议: ACL 2025 | arXiv: 2401.06769 | 代码: GitHub (有) | 领域: 文本生成 | 关键词: 翻译方向检测, 翻译体, 无监督方法, 机器翻译概率, 法证语言学

一句话总结

提出一种基于 NMT 模型翻译概率的无监督翻译方向检测方法:若 \(p(\text{translation}|\text{original}) > p(\text{original}|\text{translation})\),则可零样本判断平行文本的原始翻译方向,NMT 翻译的文档级检测准确率达 96%。

研究背景与动机

  1. 领域现状: 平行文本的原始翻译方向在 MT 社区常被忽视,但研究表明它对训练和评估均有影响。在法证语言学中,确定文档的原始语言对于解决抄袭或伪造指控至关重要。

  2. 现有痛点:

  3. 有监督方法: 依赖 n-gram 频率、POS 标签等特征训练分类器,需要大量标注数据,且跨领域性能下降严重
  4. 无监督聚类方法: 需要专家标注聚类结果,多领域场景下聚类易被领域差异主导而非翻译状态差异
  5. 两类方法都依赖特定领域数据,开放域适用性差

  6. 核心矛盾: 翻译方向检测在实际应用中需求明确(数据过滤、评估校正、法证鉴定),但现有方法的跨领域泛化能力不足。

  7. 本文要解决什么: 设计一种不需要任何任务特定训练数据、仅用现成 NMT 模型即可检测翻译方向的方法。

  8. 切入角度: 利用翻译文本的"简化效应"(translationese/machine-translationese)——翻译文本相比原创文本词汇多样性更低、更趋于高频表达,因此 NMT 模型对翻译文本的生成概率应高于反向。

  9. 核心 idea 一句话: NMT 模型天然倾向于给翻译文本分配更高条件概率,利用双向翻译概率差即可无监督检测翻译方向。

方法详解

整体框架

给定平行句对 \((x, y)\),使用多语言 NMT 模型分别计算双向翻译概率,较高概率方向即为翻译方向。

关键设计

句级检测

计算平均 token 级对数概率(避免序列长度影响):

\[P_{\text{tok}}(y|x) = P(y|x)^{\frac{1}{|y|}} = \left[\prod_{j=1}^{|y|} p(y_j | y_{<j}, x)\right]^{\frac{1}{|y|}}\]

翻译方向判定:

\[\text{OTD} = \begin{cases} X \to Y, & \text{if } P_{\text{tok}}(y|x) > P_{\text{tok}}(x|y) \\ Y \to X, & \text{otherwise} \end{cases}\]

文档级检测

对文档中所有句对的概率做全局平均:

\[P_{\text{tok}}(y|x) = \left[\prod_{i=1}^{n}\prod_{j=1}^{|y_i|} p(y_{i,j}|y_{i,<j}, x_i)\right]^{\frac{1}{|y_1|+\cdots+|y_n|}}\]

方向偏差度量

\[B = |acc(X \to Y) - acc(Y \to X)|\]

\(B=0\) 表示无偏差,\(B=1\) 表示完全偏向一个方向。

实验设置

  • NMT 模型: M2M-100-418M, SMaLL-100, NLLB-200-1.3B
  • 数据: WMT16/22/23 新闻翻译任务(14 个翻译方向,44K+ HT 句对,55K+ NMT 句对),FLORES-101 间接翻译子集
  • 有监督基线: XLM-R (base) 微调,灵感来自 COMET 架构,使用双向表示的加法、绝对差和乘积作为分类特征

实验关键数据

主实验 — 句级分类 (M2M-100)

翻译类型 Macro-Avg 准确率
人工翻译 (HT) 66.5%
NMT 翻译 75.0%
Pre-NMT 翻译 41.5% (低于随机)
LLM 翻译 (GPT-4) 73.1%

NMT 翻译检测效果最好,人工翻译次之,Pre-NMT 系统低于随机水平(因为其输出常不合语法,NMT 模型倾向给低概率)。

主实验 — 文档级分类 (M2M-100, ≥10 句)

翻译类型 Macro-Avg 准确率
人工翻译 (HT) 80.5%
NMT 翻译 95.5%

各语言对 NMT 文档级最高: en↔cs 98.0%, en↔ru 96.5%。

有监督 vs 无监督对比

方法 HT Avg. NMT Avg.
有监督 (XLM-R) 69.5% 72.1%
无监督 (M2M-100) 64.0% 74.5%

有监督在域内 HT 上更好,但无监督在 NMT 上更优且无需训练数据。

消融实验 — 模型对比

模型 HT Macro-Avg 备注
M2M-100-418M 66.5% HT 最佳
SMaLL-100 66.4% 接近
NLLB-200-1.3B 59.4% 最大模型但 HT 最差

有趣的是,最强翻译模型 NLLB 在检测 HT 方向上表现最差。

关键发现

  • 简化效应是核心驱动: NMT 输出词汇多样性低、更倾向高频表达,导致被赋予更高翻译概率
  • Pre-NMT 假设不成立: 基于规则/短语的旧系统输出常不合语法,NMT 模型给出低概率,导致方向判断反转
  • 方向偏差不可忽视: de→fr 方向偏差 \(B=0.39\),zh→en 偏差 \(B=0.30\);NLLB 在 en↔zh 上偏差高达 \(B=0.64\)
  • 间接翻译: 在 FLORES 双方都是英语翻译的情况下,cs↔uk 和 xh↔zu 预测较平衡,de↔fr 则偏向 de→fr
  • 句长影响: 60-70 字符以上句子才能达到平均准确率,短句(如 "Mit freundlichen Grüßen")检测困难
  • 法证案例验证: 在德语博士论文 vs 英语书籍的伪造指控案中,方法以 \(p=0.0002\) 的显著性支持了伪造假说

亮点与洞察

  • 极简方法解决实际问题: 仅需一个现成 NMT 模型、零训练数据,即可在句级/文档级检测翻译方向
  • 理论直觉优雅: 翻译简化效应→概率不对称→方向检测,逻辑链清晰且实验验证充分
  • 真实法证案例应用: 将学术方法应用于 2022 年德国公开的学术剽窃/伪造案,增加了论文的社会影响力
  • 揭示模型偏差: 不同 NMT 模型对不同语言对存在系统性方向偏差,最强模型不一定最适合检测

局限性/可改进方向

  • 要求平行文本句对齐,实际中可能有一对多/多对多对齐需要预处理
  • 对 pre-NMT 系统输出无效(准确率低于随机),说明方法假设依赖于翻译输出的合理语法性
  • 主要测试高资源语言,低资源语言因缺乏双向测试数据未能验证
  • 方向偏差可能导致某些语言对上结果不可靠,需要额外的偏差校正或模型选择
  • 句级准确率(66%)在高精度需求的法证场景中可能不足,需聚合到文档级

相关工作与启发

  • Junczys-Dowmunt (2018): 双向翻译概率用于噪声平行语料过滤 → 本文扩展到翻译方向检测
  • Thompson & Post (2020): 翻译概率用于 MT 评估 → 概率的对称/不对称分析框架
  • Sominsky & Wintner (2019): 有监督特征分类方法 → 本文的无监督方法无需标注数据
  • Vanmassenhove et al. (2019): 机器翻译降低词汇多样性 → 提供了核心假设的理论基础

评分

  • 新颖性: ⭐⭐⭐⭐ — 简单假设的巧妙应用,将 NMT 概率的内在不对称性转化为检测工具
  • 实验充分度: ⭐⭐⭐⭐⭐ — 20 个翻译方向,3 个 NMT 模型,4 种翻译类型,有监督对比,法证案例
  • 写作质量: ⭐⭐⭐⭐⭐ — 动机清晰,法证案例引人入胜,质性分析深入
  • 价值: ⭐⭐⭐⭐ — 方法简洁实用,对数据过滤、翻译评估和法证语言学均有价值