跳转至

Multi-perspective Alignment for Increasing Naturalness in Neural Machine Translation

会议: ACL 2025 | arXiv: 2412.08473 | 代码: GitHub (有) | 领域: 文本生成 | 关键词: 机器翻译, 自然度, 翻译体消除, 强化学习, 多视角对齐

一句话总结

提出多视角对齐框架 (Multi-perspective Alignment),同时奖励翻译自然度和内容保留,通过翻译体分类器和 COMET 的联合奖励信号对 NMT 模型进行强化学习微调,使译文词汇更丰富且不损失翻译准确度。

研究背景与动机

  1. 领域现状: NMT 系统虽然翻译质量大幅提升,但输出文本相比人工翻译存在明显的"机器翻译体 (machine translationese)"特征——词汇多样性降低、源语言干扰增加。这种特征在评测数据集中会导致性能评估膨胀,在文学翻译中则损害阅读体验。

  2. 现有痛点:

  3. Tagging 方法: 使用标签区分原创/翻译训练数据,虽有效但刚性,无法灵活调节自然度水平
  4. Reranking 方法: 通过重排翻译候选提升多样性,但导致翻译准确度显著下降
  5. APE 方法: 后编辑将 MT 输出转化为更自然文本,但同样牺牲翻译质量
  6. 核心困难: 提升自然度(词汇多样性)与保持内容忠实度之间存在固有矛盾

  7. 核心矛盾: 翻译文本应同时匹配目标语言原创文本的风格(自然度),又保留源语言的内容(忠实度),这两个目标往往相互冲突。

  8. 本文要解决什么: 设计一种灵活的翻译模型优化方法,在提升输出自然度的同时不牺牲翻译准确度。

  9. 切入角度: 借鉴 RLHF 框架和文本风格迁移范式,将自然度等同于风格、忠实度等同于内容,从多个视角定义奖励函数进行强化学习对齐。

  10. 核心 idea 一句话: 用翻译体分类器作为自然度奖励 + COMET 作为内容奖励,通过谐波平均组合两者对 MT 模型进行策略梯度优化。

方法详解

整体框架

  1. 监督学习训练 base MT 模型
  2. 训练二分类翻译体检测器(三种视角)
  3. 强化学习阶段:使用自然度+内容的联合奖励微调 MT 模型

关键设计

1. Base MT 模型

基于 BART 架构(6 层 Encoder + 6 层 Decoder),在英-荷文学平行语料(495 本书、487 万句对)上最小化负对数似然:

\[\mathcal{L}_{nl} = -\frac{1}{m}\sum_{i=1}^{m}\log(p(y_i|y_{0:i-1}, x; \theta))\]

2. 翻译体分类器(三种视角)

使用 BERTje(荷兰语 BERT)微调三种二分类器: - HT-OR: 区分人工翻译 (HT) vs 原创文本 (OR) → 旨在消除人工翻译体 - MT-HT: 区分机器翻译 (MT) vs 人工翻译 (HT) → 旨在使 MT 更接近 HT - MT-OR: 区分机器翻译 (MT) vs 原创文本 (OR) → 旨在使 MT 更接近 OR

训练数据:OR 和 HT 来自 286 本荷兰语书籍的语料(各约 98 万句),MT 数据由 base 模型翻译生成。

分类性能按难度排序:MT-OR 最易 > MT-HT > HT-OR 最难。

3. 多视角对齐框架

自然度奖励(翻译体分类器输出):

\[r_t(\hat{y}) = \begin{cases} 0 & \text{if } p(t_1|\hat{y}; \phi) < \sigma_t \\ p(t_1|\hat{y}; \phi) & \text{otherwise} \end{cases}\]

其中 \(\sigma_t = 0.5\)\(t_1\) 表示目标类别(如 OR 或 HT)。

内容奖励(COMET 评分):

\[r_c(\hat{y}) = \begin{cases} 0 & \text{if } C(x, y, \hat{y}) < \sigma_c \\ C(x, y, \hat{y}) & \text{otherwise} \end{cases}\]

其中 \(\sigma_c = 0.85\)

综合奖励(谐波平均):

\[r(\hat{y}) = \begin{cases} 0 & \text{if } r_t = 0 \text{ or } r_c = 0 \\ \frac{2}{1/r_t + 1/r_c} & \text{otherwise} \end{cases}\]

损失函数/训练策略

最终目标函数结合监督损失和奖励损失:

\[\mathcal{L}(\theta; \mathcal{D}) = \mathbb{E}_{(x,y)\sim\mathcal{D}}[\beta \mathcal{L}_{nl} + \mathcal{L}_{rw}]\]

其中 \(\beta = 0.5\)\(\mathcal{L}_{rw} = -\frac{1}{m}\sum_{i=1}^{m} r(\hat{y}) \log(p(\hat{y}_i|\hat{y}_{0:i-1}, x; \theta))\)

关键设计:使用 NLL 损失约束模型不偏离 base MT 太远,替代传统 RLHF 中需要大量计算的参考模型 KL 散度惩罚。

推理使用 beam search (size=5),对齐模型训练5K步。

实验关键数据

主实验

系统 BLEU MetricX ↓ KIWI MTLD MT-HT Acc.
Human Translation 96.0 69.3
Base MT Model 32.5 2.66 80.4 90.4 18.9
Tailored RR (Top-k) 21.2 4.86 72.4 104.3 52.9
APE 29.9 3.38 77.9 91.7 33.6
Tagging (4.8M) 31.1 3.05 79.7 96.8 43.2
BM + COMET & MT-HT 32.1 2.63 80.6 93.3 33.4

最佳模型 (COMET & MT-HT) 在 MTLD 上提升 90.4→93.3(更接近人类翻译的 96.0),MetricX 从 2.66 降至 2.63(更好),KIWI 从 80.4 升至 80.6,且上述两个指标均未用于奖励训练。

消融实验 — 奖励组件

设置 MetricX ↓ MTLD MT-HT Acc.
BM (无奖励) 2.66 90.4 18.9
BM + COMET only 2.64 90.9 19.1
BM + MT-HT only 2.67 91.2 24.7
BM + COMET & MT-HT 2.63 93.3 33.4

消融实验 — β=0 (无 NLL 约束)

设置 BLEU MetricX ↓ MT-HT Acc. MTLD
BM + COMET & HT-OR 21.8 3.59 48.4 88.0
BM + COMET & MT-HT 24.1 3.06 52.2 92.4
BM + COMET & MT-OR 24.4 3.19 59.2 93.1

去掉 NLL 约束后分类准确率更高(MT-OR 达 49.5→59.2),但翻译准确度大幅下降。

关键发现

  • MT-HT 奖励最稳健: 原因是 MT 训练数据的目标侧是 HT,MT-HT 分类器的偏好与训练数据分布更匹配
  • HT-OR 和 MT-OR 效果较差: 可能因为分类器偏好 OR,但训练数据目标侧是 HT,导致偏好不匹配
  • Tailored RR 自然度最高但准确度最差: MTLD 104.3(超过人类翻译的 96.0),但 BLEU 仅 21.2
  • NLL 约束至关重要: 去掉后模型偏离 base MT 过远,翻译质量严重退化
  • 书级分析: 对齐模型在所有 31 本测试书上 MTLD 均优于 base MT,部分书接近甚至超越人类翻译

亮点与洞察

  • 文本风格迁移视角重构翻译问题: 将 MT 自然度优化类比为风格迁移中的内容-形式权衡,框架清晰
  • RLHF 的轻量化替代: 用 NLL + 奖励的加权组合替代 PPO+参考模型的复杂方案,计算成本更低
  • 多视角设计提供诊断价值: 三种分类器对应三种自然度度量视角,揭示了"自然"的多维含义
  • 灵活可调: 超参 \(\beta\) 允许用户在自然度和忠实度之间灵活权衡

局限性/可改进方向

  • 仅实验了英→荷文学翻译这一语言对和领域,泛化性未验证
  • 使用从头训练的 BART,未涉及预训练 LLM 的设置
  • 自然度评估主要依赖词汇多样性指标,写作风格的其他维度(语法复杂度、修辞等)未覆盖
  • 缺乏大规模人工评估,仅有表面级质性分析
  • 推理阶段需要额外的重复标点后处理

相关工作与启发

  • Freitag et al. (2022) Tagging 方法: 使用 <orig>/<tran> 标签 → 刚性方法,不可调节
  • Ploeger et al. (2024) Tailored RR: 重排提升多样性但牺牲质量 → 本文的多视角奖励更好地平衡两者
  • Ramos et al. (2024): 使用 COMET 单一指标作为 MT 奖励 → 本文扩展为多维度奖励
  • Lai et al. (2021a,b): 文本风格迁移中的内容-形式权衡 → 直接启发本文框架设计

评分

  • 新颖性: ⭐⭐⭐⭐ — 多视角奖励框架的设计新颖,将自然度优化形式化为多目标对齐问题
  • 实验充分度: ⭐⭐⭐⭐ — 多基线对比、消融充分、书级分析细致;但仅单一语言对
  • 写作质量: ⭐⭐⭐⭐ — 框架描述清晰,算法伪代码规范,分析有深度
  • 价值: ⭐⭐⭐⭐ — 提供了提升 MT 自然度的实用方案,对文学翻译和评测数据集构建有直接应用价值