Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation¶

会议: ACL2025 arXiv: 2504.14669 代码: NJUNLP/trans0 领域: llm_nlp 关键词: 多语言翻译, 自博弈, Monte-Carlo Tree Search, 偏好优化, 无平行数据

一句话总结¶

提出 Trans-Zero 自博弈框架，仅使用单语数据，通过遗传蒙特卡洛树搜索（G-MCTS）在多语言翻译过程中探索语义一致的候选翻译，结合偏好优化实现无平行数据的多语言翻译训练，性能可媲美大规模监督微调方法。

背景与动机¶

多语言翻译对平行数据的依赖：当前 LLM 多语言翻译仍需大量平行语料进行 SFT，而低资源语言的平行数据极度匮乏，限制了翻译覆盖面。
灾难性遗忘问题：随着多语言 SFT 规模扩大，一对一 MLE 监督会引入偏置，过多的多语言标注反而稀释预训练知识，导致跨语言性能下降。
MoE 方案的扩展性瓶颈：已有混合专家（MoE）方法使用手工设计的语言模块路由，但路由复杂度和分布式开销随翻译方向数指数增长。
LLM 内在多语言知识的利用不足：LLM 在预训练中已积累丰富的多语言知识，但现有方法未能有效激发这些内在能力进行自我提升。
跨语言探索的技术挑战：系统性的跨语言语义空间探索需要超越简单 prompt 工程的规划方法，传统 LLM 推理范式难以直接适用。
多语言质量评估的外部依赖：现有翻译质量评估依赖数据驱动的 QE 指标或奖励模型训练，增加了系统复杂度和对外部模块的依赖。

方法详解¶

整体框架：Trans-Zero 自博弈多语言翻译¶

做什么：构建一个仅需单语数据的自博弈框架，让 LLM 通过多语言翻译过程的搜索与偏好优化来自我提升翻译能力。
为什么：摆脱对平行数据的依赖，利用 LLM 固有的多语言知识实现资源高效的多语言翻译训练。
怎么做：定义多语言翻译过程（MTP）→ 在 MTP 上执行遗传蒙特卡洛树搜索（G-MCTS）探索候选翻译 → 基于跨语言语义一致性评估翻译质量 → 从搜索树中提取偏好对 → 使用 SPPO 进行偏好优化。

关键设计 1：多语言翻译过程（MTP）与 G-MCTS¶

做什么：定义迭代多语言翻译过程作为搜索空间，在其上实施结合遗传算法思想的 MCTS 搜索。
为什么：MTP 将翻译扩展到多语言链路（如 EN→IT→ZH→EN），使得语义一致性可通过回译验证。G-MCTS 的遗传扩展（merge + mutate）解决了标准 MCTS 在翻译探索中多样性不足的问题。
怎么做：
初始化：以源文本为根节点，top-k 采样生成 \(b\) 个目标语言候选翻译作为子节点，通过回译初始化奖励。
遗传扩展：选择最高 UCB 值节点扩展。若 UCB 最大节点 ≠ utility 最大节点，执行 Merge（以两者为 few-shot 示例生成新翻译）；若相同，执行 Mutate（翻译模拟中最佳重建文本而非原始输入，引入多样性）。
语义一致性模拟：对候选翻译展开 \(b^n\) 条 MTP 轨迹，计算重建文本与原始输入的一致性分数（BLEURT 双向平均），取 literal 与 free 翻译中较优者作为奖励。

关键设计 2：Tree-to-Preference 算法与 SPPO 优化¶

做什么：从完成搜索的 G-MCTS 树中系统提取翻译偏好对，用于自博弈偏好优化。
为什么：搜索树中的节点 utility 自然反映翻译质量排序，可无需外部奖励模型或 QE 模块直接构造偏好数据。距根越远的高 utility 节点说明经历更多翻译步骤仍保持语义一致，其翻译质量更值得偏好。
怎么做：对搜索树做层序遍历并合并重复节点，按 utility 降序选择排序，排序中每次交换生成一个偏好对 \((y_w \succ y_l)\)。仅保留 utility 高于根节点的偏好选中节点。通过 softmax 将 utility 差异转化为 SPPO 所需的 win rate，最终用 SPPO 对称损失进行偏好优化。

实验关键数据¶

实验 1：与 SFT 和专用翻译模型的对比（Flores-200, 6语言）¶

模型	EN⇒X (BLEURT)	X⇒EN (BLEURT)	X⇒X (BLEURT)	平均 (BLEURT)
Mixtral-8x7B-Instruct	55.42	75.41	54.49	61.77
ALMA-R	69.38	77.52	51.03	65.98
Tower-Instruct	76.74	78.73	72.98	76.15
Llama3.1-SFT (5m)	75.80	78.47	73.30	75.86
Llama3.1-Trans-Zero	73.71	77.60	73.28	74.86
Qwen2.5-SFT (5m)	75.32	78.21	72.99	75.49
Qwen2.5-Trans-Zero	75.05	78.21	72.23	75.16

发现：Trans-Zero 仅用单语数据，在非英语方向（X⇒X）上达到甚至超越 5M 平行数据 SFT 的水平，整体性能与大规模监督方法高度可比。在 EN⇒X 方向略低于 5M SFT，但差距很小。

实验 2：G-MCTS 单独作为推理增强的效果¶

模型	EN⇒X (BLEURT)	X⇒X (BLEURT)	平均 (BLEURT)
Llama3.1-Instruct	62.57	62.52	65.72
+ G-MCTS	64.21 (+1.64)	68.12 (+5.60)	67.45 (+1.73)
Llama3.1-SFT (5k)	69.33	68.51	71.61
+ G-MCTS	71.55 (+2.22)	71.92 (+3.41)	73.45 (+1.84)
Tower-Instruct	76.74	72.98	76.15
+ G-MCTS	76.44 (-0.30)	74.42 (+1.44)	76.38 (+0.23)

发现：G-MCTS 作为纯推理增强在非英语方向（X⇒X）提升最为显著（最高 +5.60），证明其跨语言探索能力。对已经很强的模型（Tower-Instruct）提升有限，但在 X⇒X 方向仍有增益。基础模型（如 ALMA-R、Llama3.1-Base）由于翻译能力不足导致搜索失败（Failed），说明 G-MCTS 需要基本的翻译能力作为启动条件。

亮点¶

突破平行数据依赖：首个仅用单语数据实现多语言翻译自博弈训练的框架，在低资源场景下意义重大。
G-MCTS 设计精巧：遗传扩展（merge/mutate）与多语言语义一致性模拟的结合，既保证搜索多样性又提供无需外部奖励的评估信号。
非英语方向优势突出：在最具挑战的 X⇒X 翻译方向上表现尤为亮眼，甚至超越大规模平行数据 SFT。
Tree-to-Preference 算法简洁有效：将搜索树的 utility 排序直接转化为 SPPO 偏好对，避免了额外的奖励模型训练。

局限性 / 可改进方向¶

需要基本翻译能力启动：对翻译能力极弱的 Base 模型（如 Llama3.1-Base）G-MCTS 搜索直接失败，仍需 cold-start 阶段用少量指令数据启动。
计算开销大：G-MCTS 在每个句子上需要大量翻译调用（\(b^n\) 条模拟轨迹 × 多轮搜索），32 GPU 并行仍需大量计算资源。
语言覆盖有限：仅在 6 种语言上验证，未涉及真正的低资源语言（如非洲语言、东南亚语言）。
EN⇒X 方向略弱于大规模 SFT：在英译其他语言方向上与 5M SFT 仍有约 2 个 BLEURT 的差距，high-resource 场景下的优势不够明显。

与相关工作的对比¶

vs ALMA / ALMA-R (Xu et al., 2024a/c)¶

ALMA 和 ALMA-R 依赖大量平行数据和外部 LLM 生成的偏好标注。Trans-Zero 完全摆脱平行数据，通过自博弈搜索自主生成偏好信号。在 EN⇒X 上 Trans-Zero 与 ALMA-R 可比，但在 X⇒X 方向上大幅超越 ALMA-R（73.28 vs 51.03 BLEURT），体现了自博弈框架对非英语方向的优势。

vs Self-Play Preference Optimization (SPPO, Chen et al., 2024)¶

SPPO 提供了偏好优化的博弈论框架，但原始 SPPO 需要外部偏好信号。Trans-Zero 创新性地将 G-MCTS 的搜索 utility 作为偏好来源，实现了翻译场景下的端到端自博弈闭环，无需任何外部评估模块。

vs 跨语言优化方法 (Geng et al., 2024; She et al., 2024)¶

已有方法使用强势语言辅助弱势语言优化，但局限于双语场景或需要预定义 pivot 语言。Trans-Zero 通过 MTP 在任意多语言间迭代翻译，搜索空间随语言数量扩展（实验证明 6 语言优于 4 语言），具有更好的可扩展性。

补充观察¶

增加参与搜索的语言数量（4→6）可显著提升 Trans-Zero 的性能上界，说明多语言交叉验证的信号随语言数增加而更丰富。
SFT 性能在超过 100k 平行样本后趋于饱和，而 Trans-Zero 在非英语方向可持续从搜索中获益，暗示搜索式学习与数据式学习的互补性。
语言检测失败的翻译在排序中被 utility 减半惩罚，这一简单策略有效过滤了低质量翻译对偏好学习的污染。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将 MCTS 自博弈应用于无平行数据多语言翻译，框架设计极具创新性
实验充分度: ⭐⭐⭐⭐ — 6 语言、多基线对比、消融分析充分，但缺少真正低资源语言验证
写作质量: ⭐⭐⭐⭐ — 方法描述清晰，公式推导完整，案例分析直观
价值: ⭐⭐⭐⭐ — 为低资源多语言翻译提供了全新范式，实用性强