Did Translation Models Get More Robust Without Anyone Even Noticing?¶

会议: ACL 2025
arXiv: 2403.03923
代码: GitHub
领域: 多语言 / 机器翻译 / 鲁棒性
关键词: Machine Translation Robustness, Character Noise, LLM Translation, Social Media Text, Source Correction

一句话总结¶

通过合成噪声和社交媒体文本实验发现，近年大规模预训练翻译模型（如 TowerInstruct 13B、GPT-3.5）在未使用任何专门鲁棒性训练技术的情况下，对多种字符级噪声的鲁棒性远超传统 NMT 模型（OPUS），且源端纠错+LLM 翻译的组合可进一步超越 GPT-3.5。

研究背景与动机¶

现有痛点：长期以来 NLP 社区认为神经机器翻译对源端噪声（拼写错误、缩写、格式异常）高度敏感。为此提出了大量鲁棒性训练方法（噪声数据增强、字符级架构、视觉表示等），但这些方法成本高且难以移植到 LLM 范式——LLM 参数量大无法轻易加噪训练，架构也不能修改。
核心矛盾：MT 已从"从头训练单语对模型"转变为"基于指令微调 LLM 翻译"范式，但鲁棒性研究仍停留在旧范式假设上。核心问题是：在 LLM 时代，那些专门的鲁棒性技术是否还有必要？更大模型和更多训练数据是否已自然带来了足够的鲁棒性？
本文要解决：(1) 系统比较不同规模/架构翻译模型对合成噪声的鲁棒性；(2) 验证合成鲁棒性是否迁移到真实社交媒体文本翻译；(3) 评估源端纠错和噪声训练作为缓解手段的效果。
切入角度：作者提出 COMET-slope 鲁棒性度量——用线性回归拟合翻译质量随噪声比例的下降斜率，而非仅看单一噪声水平下的性能。这使得跨模型、跨噪声类型的鲁棒性比较更精确和可分析。

方法详解¶

整体框架¶

输入为 FLORES-200 测试集 + 4 种合成噪声（swap/dupe/drop/key）× 10 个噪声级别（p=0.1-1.0），加社交媒体数据集（MTNT、MultiLexNorm）。输出为 4 种翻译模型在各设置下的 COMET 分数和鲁棒性度量。

关键设计¶

COMET-slope 鲁棒性度量：
- 功能：量化翻译模型随噪声增加的质量下降速度
- 核心思路：对每种噪声和语言对，在 10 个噪声级别下测量 COMET，用最小二乘法拟合线性回归 \(\text{COMET}(p) = a + b \cdot p\)，斜率 \(b\)（COMET-slope）绝对值越小表示越鲁棒。例如 GPT-3.5 在 en→fr swap 噪声下斜率仅 -4.46，OPUS 为 -69.59。
- 设计动机：此前方法只报告特定噪声级别的 COMET 下降值，无法反映降解曲线形状
合成噪声实验设计：
- 功能：可控地测量不同噪声类型的影响
- 核心思路：4 种噪声模拟打字错误——swap（交换相邻字符）、dupe（重复字符）、drop（删除字符）、key（替换为相邻键位）。每个 token 独立以概率 \(p\) 被扰动。在 4 个语言对（de/fr/ko/pt ↔ en）上测试，4 种模型：OPUS（74M，单语对）、NLLB（3.3B，多语言）、TowerInstruct（13B，指令微调 LLM）、GPT-3.5
- 设计动机：4 种噪声覆盖常见打字错误场景，10 个级别提供完整鲁棒性曲线
源端纠错流水线：
- 功能：通过先纠错后翻译提升鲁棒性
- 核心思路：使用 GECToR（语法纠错模型）、LLM zero-shot correction（Llama-3-8B）或 BartLM 对含噪文本纠错，再用翻译模型翻译。纠错+NLLB 可使鲁棒性超越 GPT-3.5（3/4 噪声类型），纠错+TI 在所有类型上超越 GPT-3.5
- 设计动机：纠错是模型无关方法，不需修改翻译模型本身

社交媒体评估¶

使用 MTNT（Reddit 文本）和 MultiLexNorm（12 语种社交媒体规范化数据集），后者首次用于 MT 评估。采用无参考 COMET 评估。

实验关键数据¶

主实验 — 干净数据性能 (COMET on FLORES)¶

模型	参数量	xx→en 平均	en→xx 平均
OPUS	74M	88.02	86.79
NLLB	3.3B	89.00	88.61
TowerInstruct	13B	89.60	89.47
GPT-3.5	未知	89.22	89.05

鲁棒性 — COMET-slope (xx→en 平均，绝对值越小越好)¶

模型	swap	dupe	drop	key
OPUS	-57.52	-26.91	-46.39	-58.29
NLLB	-20.93	-4.58	-18.48	-23.53
TI (13B)	-25.90	-3.38	-18.17	-28.82
GPT-3.5	-9.47	-2.47	-9.28	-11.09

源端纠错效果 (en→xx, COMET-slope)¶

纠错方法 + 翻译模型	swap	dupe	drop	key
无纠错 + NLLB	-22.04	-4.93	-21.26	-24.56
GECToR + NLLB	-10.80	-3.17	-14.77	-13.22
无纠错 + GPT-3.5	-4.23	-2.15	-6.81	-6.58
LLM-correction + TI	-2.14	-1.67	-4.02	-3.30

关键发现¶

LLM 翻译天然更鲁棒：GPT-3.5 slope 比 OPUS 小 5-6 倍，即使干净数据性能相近
鲁棒性"免费"获得：没有开放 LLM 使用专门鲁棒性技术，鲁棒性来自更大模型容量和多样预训练数据
dupe 噪声影响最小：所有模型对字符重复容忍度最高（NLLB slope 仅 -4.58），因重复对 subword 分词影响最小
源端纠错有效：GECToR+NLLB 在 3/4 噪声类型超越 GPT-3.5；LLM 纠错+TI 在所有类型超越
社交媒体结果一致：合成鲁棒性与社交媒体翻译性能正相关

亮点与洞察¶

颠覆传统认知："NMT 对噪声脆弱"在 LLM 时代不再成立，很多鲁棒性研究可能已过时
COMET-slope 方法：用单一斜率指标量化鲁棒性是简洁优雅的工具，可迁移到其他 NLP 鲁棒性评估
纠错+翻译协同：即使 3B NLLB + GECToR 也能在鲁棒性上超越 GPT-3.5，为资源受限场景提供实用方案

局限性¶

GPT-3.5 和 TI 训练数据未知，可能已见过测试集（数据泄露风险）
合成噪声与真实噪声仍有差距，key 噪声依赖 QWERTY 键盘布局
仅测试 4 个语言对，缺少低资源语言评估
未分析鲁棒性来源——模型大小、预训练数据量还是 BPE 词表大小
MultiLexNorm 使用无参考 COMET，可能不如有参考评估可靠

评分¶

新颖性: 8/10 — "鲁棒性免费获得"的发现具有范式转换意义
技术深度: 7/10 — COMET-slope 方法简洁有效，实验设计系统
实验充分度: 8/10 — 合成+真实噪声、4 种模型、多语言、纠错消融
清晰度: 9/10 — 写作优秀，论证逻辑清晰有力
总分: 8/10