跳转至

DRT: Deep Reasoning Translation via Long Chain-of-Thought

会议: ACL 2025
arXiv: 2412.17498
代码: https://github.com/krystalan/DRT (有,含数据和模型)
领域: LLM推理
关键词: 机器翻译, Chain-of-Thought, 文学翻译, 多智能体, 隐喻翻译

一句话总结

将长 CoT 推理引入机器翻译,构建多智能体框架(翻译器→顾问→评估器)迭代精炼含比喻/隐喻的文学翻译,合成 22K 长思维翻译训练样本,训练的 DRT-14B 在文学翻译上超越 QwQ-32B 和 DeepSeek-R1-Distill-32B 等大模型。

研究背景与动机

  1. 领域现状:O1 类模型通过长 CoT 在数学和编程推理上取得突破,但翻译领域尚未系统探索 long-thought 推理的价值。现有翻译模型多为单次生成,缺少迭代精炼过程。
  2. 现有痛点:(a) 含比喻、隐喻的文学句子直译不通——需要理解修辞意图再意译;(b) 通用 DeepSeek-R1 蒸馏模型在翻译上推理能力不匹配(如 DeepSeek-R1-Distill-Qwen-7B GEA 仅 43.66);(c) 缺乏大规模的长思维翻译训练数据。
  3. 核心矛盾:文学翻译需要深度语义理解和多步推敲,但现有模型一步到位的生成方式无法捕捉这种迭代精炼过程。
  4. 本文要解决什么? (a) 构建文学翻译场景下的长思维训练数据集;(b) 训练专门的 DRT 模型,使小模型也能进行高质量文学翻译。
  5. 切入角度:文学中的比喻和隐喻翻译天然需要"先理解→再尝试→被批评→再改进"的多步推理,这与 long-thought 推理的本质一致。
  6. 核心 idea 一句话:用多智能体迭代精炼生成文学翻译的长思维训练数据,然后微调 LLM 使其内化这种迭代推敲过程。

方法详解

整体框架

三步流水线:(1) 文学挖掘——从古登堡计划 400 本英文书中筛选含比喻/隐喻且直译不佳的句子(63K 条);(2) 多智能体迭代精炼——翻译器+顾问+评估器协作,逐步改进翻译至质量达标;(3) 长思维重组——去除无效迭代,用 GPT-4o 将多智能体对话重组为连贯的自我反思描述,最终得到 22,264 个训练样本。

关键设计

  1. 文学句子筛选(两阶段过滤):
  2. 做什么:从 577.6K 句中筛选出需要深度翻译的句子
  3. 核心思路:用 Qwen2.5-72B-Instruct 做两次判断——Q1: 是否含比喻/隐喻?(保留 yes) Q2: 直译是否能满足母语者?(保留 no)
  4. 设计动机:只有真正需要推敲的句子才值得使用长思维,一般句子直译即可

  5. 多智能体迭代精炼:

  6. 做什么:三个 agent 协作迭代改进翻译
  7. 核心思路:Phase 1 - 翻译器做关键词级翻译(分解子问题);Phase 2 - 生成初始全文翻译 \(t^0\);Phase 3 - 迭代循环:Advisor 评估 \(t^{k-1}\) 给反馈 \(f^{k-1}\),Evaluator 打分 \(s^{k-1}\),Translator 根据反馈和分数生成精炼翻译 \(t^k\)。达到分数阈值或最大迭代次数时停止
  8. 设计动机:模拟人类译者的推敲过程——初译→审校→修改→再审校

  9. 长思维重组:

  10. 做什么:将多智能体对话转化为单模型可学习的连贯长思维格式
  11. 核心思路:去除分数不提升的无效迭代轮,过滤少于 3 步有效精炼的样本,用 GPT-4o 将多 agent 对话改写为连贯的自我反思叙述。最终输出选择得分最高的翻译(不一定是最后一轮)
  12. 设计动机:多 agent 对话格式不适合单模型 SFT,需要统一为" 思考过程→最终翻译"格式

数据统计

  • 22,264 样本(训练 19,264 / 验证 1,000 / 测试 2,000)
  • 平均思维 token: 527.64,平均精炼步骤: 4-5 步
  • 73.22% 样本有 3 步精炼

训练策略

  • 基于 Qwen2.5-7B/14B 和 LLaMA-3.1-8B 做全参数 SFT
  • 使用 LlamaFactory 框架,vLLM 加速推理

实验关键数据

主实验(英→中文学翻译)

模型 GEA ↑ GRF ↑ CometKiwi ↑ BLEU ↑
Qwen2.5-14B-Instruct 70.86 84.74 72.01 30.23
QwQ-32B-Preview 75.50 86.31 71.48 27.46
DeepSeek-R1-Distill-Qwen-32B 71.88 84.78 71.93 29.36
Qwen2.5-14B-SFT (w/o CoT) 74.53 85.66 72.08 37.63
DRT-14B 77.41 87.19 72.11 36.46

DRT-14B 在无参考指标(GEA, GRF)上显著领先 32B 级模型。

人类评估(200 样本,Best-Worst Scaling)

模型 流畅度 语义准确度 文学性
Qwen2.5-14B-Instruct -0.353 -0.363 -0.442
QwQ-32B-Preview -0.063 0.022 -0.007
Qwen2.5-14B-SFT 0.103 0.108 0.087
DRT-14B 0.313 0.233 0.362

DRT-14B 在文学性上大幅领先(0.362 vs 0.087/0.007)。

消融实验

配置 GEA 说明
DRT-7B 75.05 完整模型
Qwen2.5-7B-SFT 72.29 w/o 长思维,差 2.76
DRT-14B 77.41 完整模型
Qwen2.5-14B-SFT 74.53 w/o 长思维,差 2.88

关键发现

  • 长思维对无参考指标提升显著但可能降低 BLEU:DRT-14B GEA +2.88 但 BLEU -1.17,因为推理产生的翻译更自由,偏离了参考翻译
  • 评估器准确率 92.5%:远超 CometKiwi (56%),证明 LLM-as-evaluator 在文学翻译评估上的有效性
  • 推理代价:12× 慢:长思维翻译比标准翻译慢 11.9-13.9 倍,仅适合高质量需求场景
  • 精炼步骤有效递减:Step 0→1 改动最大(21.44字符),后续每步改动逐渐减小

亮点与洞察

  • 翻译领域的 O1 范式:首次系统性地将长 CoT 推理引入翻译,证明在需要深度语义理解的文学翻译场景中,推理确实有帮助
  • 多 agent 对话→单模型长思维的数据转化:先用多 agent 生成高质量精炼过程,再重组为单模型可训练的格式,这种数据合成范式可迁移到其他需要迭代推敲的任务(如学术写作、代码审查)
  • 14B 模型超越 32B:DRT-14B 在多项指标上超过 QwQ-32B 和 DeepSeek-R1-Distill-32B,说明领域专精的长思维数据比通用推理能力更重要

局限性 / 可改进方向

  • 仅支持英→中:未验证其他语言对
  • 仅适用于文学翻译:一般翻译不需要长思维,12× 的推理代价不划算
  • 自动评估不可靠:BLEU 和 COMET 对文学翻译的相关性低,重度依赖人类评估
  • 数据合成成本高:多 agent 迭代 + GPT-4o 重组
  • 可改进:(a) 可以扩展到其他需要推敲的翻译场景(法律、医学);(b) 可以训练轻量评估器替代 72B 模型

相关工作与启发

  • vs Marco-O1: Marco-O1 是通用 O1 类推理模型,翻译上表现一般(GEA 64.24);DRT 针对翻译做专门数据和训练
  • vs DeepSeek-R1 蒸馏: 通用推理蒸馏模型在翻译上甚至劣于基线(DeepSeek-R1-Distill-Qwen-7B GEA 仅 43.66),说明推理能力不能直接迁移到翻译
  • vs GPT-4o: GPT-4o (GEA 71.88) < DRT-14B (77.41),领域专精的小模型可超越通用大模型

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将长CoT推理系统应用于翻译领域,数据合成流水线设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 自动指标+人类评估+消融+商业模型对比,多维度验证
  • 写作质量: ⭐⭐⭐⭐ 数据合成流程清晰,评估全面
  • 价值: ⭐⭐⭐⭐ 对文学翻译和long-thought范式都有实用贡献,数据和模型均开源