DRT: Deep Reasoning Translation via Long Chain-of-Thought¶
会议: ACL 2025
arXiv: 2412.17498
代码: https://github.com/krystalan/DRT (有,含数据和模型)
领域: LLM推理
关键词: 机器翻译, Chain-of-Thought, 文学翻译, 多智能体, 隐喻翻译
一句话总结¶
将长 CoT 推理引入机器翻译,构建多智能体框架(翻译器→顾问→评估器)迭代精炼含比喻/隐喻的文学翻译,合成 22K 长思维翻译训练样本,训练的 DRT-14B 在文学翻译上超越 QwQ-32B 和 DeepSeek-R1-Distill-32B 等大模型。
研究背景与动机¶
- 领域现状:O1 类模型通过长 CoT 在数学和编程推理上取得突破,但翻译领域尚未系统探索 long-thought 推理的价值。现有翻译模型多为单次生成,缺少迭代精炼过程。
- 现有痛点:(a) 含比喻、隐喻的文学句子直译不通——需要理解修辞意图再意译;(b) 通用 DeepSeek-R1 蒸馏模型在翻译上推理能力不匹配(如 DeepSeek-R1-Distill-Qwen-7B GEA 仅 43.66);(c) 缺乏大规模的长思维翻译训练数据。
- 核心矛盾:文学翻译需要深度语义理解和多步推敲,但现有模型一步到位的生成方式无法捕捉这种迭代精炼过程。
- 本文要解决什么? (a) 构建文学翻译场景下的长思维训练数据集;(b) 训练专门的 DRT 模型,使小模型也能进行高质量文学翻译。
- 切入角度:文学中的比喻和隐喻翻译天然需要"先理解→再尝试→被批评→再改进"的多步推理,这与 long-thought 推理的本质一致。
- 核心 idea 一句话:用多智能体迭代精炼生成文学翻译的长思维训练数据,然后微调 LLM 使其内化这种迭代推敲过程。
方法详解¶
整体框架¶
三步流水线:(1) 文学挖掘——从古登堡计划 400 本英文书中筛选含比喻/隐喻且直译不佳的句子(63K 条);(2) 多智能体迭代精炼——翻译器+顾问+评估器协作,逐步改进翻译至质量达标;(3) 长思维重组——去除无效迭代,用 GPT-4o 将多智能体对话重组为连贯的自我反思描述,最终得到 22,264 个训练样本。
关键设计¶
- 文学句子筛选(两阶段过滤):
- 做什么:从 577.6K 句中筛选出需要深度翻译的句子
- 核心思路:用 Qwen2.5-72B-Instruct 做两次判断——Q1: 是否含比喻/隐喻?(保留 yes) Q2: 直译是否能满足母语者?(保留 no)
-
设计动机:只有真正需要推敲的句子才值得使用长思维,一般句子直译即可
-
多智能体迭代精炼:
- 做什么:三个 agent 协作迭代改进翻译
- 核心思路:Phase 1 - 翻译器做关键词级翻译(分解子问题);Phase 2 - 生成初始全文翻译 \(t^0\);Phase 3 - 迭代循环:Advisor 评估 \(t^{k-1}\) 给反馈 \(f^{k-1}\),Evaluator 打分 \(s^{k-1}\),Translator 根据反馈和分数生成精炼翻译 \(t^k\)。达到分数阈值或最大迭代次数时停止
-
设计动机:模拟人类译者的推敲过程——初译→审校→修改→再审校
-
长思维重组:
- 做什么:将多智能体对话转化为单模型可学习的连贯长思维格式
- 核心思路:去除分数不提升的无效迭代轮,过滤少于 3 步有效精炼的样本,用 GPT-4o 将多 agent 对话改写为连贯的自我反思叙述。最终输出选择得分最高的翻译(不一定是最后一轮)
- 设计动机:多 agent 对话格式不适合单模型 SFT,需要统一为" 思考过程→最终翻译"格式
数据统计¶
- 22,264 样本(训练 19,264 / 验证 1,000 / 测试 2,000)
- 平均思维 token: 527.64,平均精炼步骤: 4-5 步
- 73.22% 样本有 3 步精炼
训练策略¶
- 基于 Qwen2.5-7B/14B 和 LLaMA-3.1-8B 做全参数 SFT
- 使用 LlamaFactory 框架,vLLM 加速推理
实验关键数据¶
主实验(英→中文学翻译)¶
| 模型 | GEA ↑ | GRF ↑ | CometKiwi ↑ | BLEU ↑ |
|---|---|---|---|---|
| Qwen2.5-14B-Instruct | 70.86 | 84.74 | 72.01 | 30.23 |
| QwQ-32B-Preview | 75.50 | 86.31 | 71.48 | 27.46 |
| DeepSeek-R1-Distill-Qwen-32B | 71.88 | 84.78 | 71.93 | 29.36 |
| Qwen2.5-14B-SFT (w/o CoT) | 74.53 | 85.66 | 72.08 | 37.63 |
| DRT-14B | 77.41 | 87.19 | 72.11 | 36.46 |
DRT-14B 在无参考指标(GEA, GRF)上显著领先 32B 级模型。
人类评估(200 样本,Best-Worst Scaling)¶
| 模型 | 流畅度 | 语义准确度 | 文学性 |
|---|---|---|---|
| Qwen2.5-14B-Instruct | -0.353 | -0.363 | -0.442 |
| QwQ-32B-Preview | -0.063 | 0.022 | -0.007 |
| Qwen2.5-14B-SFT | 0.103 | 0.108 | 0.087 |
| DRT-14B | 0.313 | 0.233 | 0.362 |
DRT-14B 在文学性上大幅领先(0.362 vs 0.087/0.007)。
消融实验¶
| 配置 | GEA | 说明 |
|---|---|---|
| DRT-7B | 75.05 | 完整模型 |
| Qwen2.5-7B-SFT | 72.29 | w/o 长思维,差 2.76 |
| DRT-14B | 77.41 | 完整模型 |
| Qwen2.5-14B-SFT | 74.53 | w/o 长思维,差 2.88 |
关键发现¶
- 长思维对无参考指标提升显著但可能降低 BLEU:DRT-14B GEA +2.88 但 BLEU -1.17,因为推理产生的翻译更自由,偏离了参考翻译
- 评估器准确率 92.5%:远超 CometKiwi (56%),证明 LLM-as-evaluator 在文学翻译评估上的有效性
- 推理代价:12× 慢:长思维翻译比标准翻译慢 11.9-13.9 倍,仅适合高质量需求场景
- 精炼步骤有效递减:Step 0→1 改动最大(21.44字符),后续每步改动逐渐减小
亮点与洞察¶
- 翻译领域的 O1 范式:首次系统性地将长 CoT 推理引入翻译,证明在需要深度语义理解的文学翻译场景中,推理确实有帮助
- 多 agent 对话→单模型长思维的数据转化:先用多 agent 生成高质量精炼过程,再重组为单模型可训练的格式,这种数据合成范式可迁移到其他需要迭代推敲的任务(如学术写作、代码审查)
- 14B 模型超越 32B:DRT-14B 在多项指标上超过 QwQ-32B 和 DeepSeek-R1-Distill-32B,说明领域专精的长思维数据比通用推理能力更重要
局限性 / 可改进方向¶
- 仅支持英→中:未验证其他语言对
- 仅适用于文学翻译:一般翻译不需要长思维,12× 的推理代价不划算
- 自动评估不可靠:BLEU 和 COMET 对文学翻译的相关性低,重度依赖人类评估
- 数据合成成本高:多 agent 迭代 + GPT-4o 重组
- 可改进:(a) 可以扩展到其他需要推敲的翻译场景(法律、医学);(b) 可以训练轻量评估器替代 72B 模型
相关工作与启发¶
- vs Marco-O1: Marco-O1 是通用 O1 类推理模型,翻译上表现一般(GEA 64.24);DRT 针对翻译做专门数据和训练
- vs DeepSeek-R1 蒸馏: 通用推理蒸馏模型在翻译上甚至劣于基线(DeepSeek-R1-Distill-Qwen-7B GEA 仅 43.66),说明推理能力不能直接迁移到翻译
- vs GPT-4o: GPT-4o (GEA 71.88) < DRT-14B (77.41),领域专精的小模型可超越通用大模型
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将长CoT推理系统应用于翻译领域,数据合成流水线设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 自动指标+人类评估+消融+商业模型对比,多维度验证
- 写作质量: ⭐⭐⭐⭐ 数据合成流程清晰,评估全面
- 价值: ⭐⭐⭐⭐ 对文学翻译和long-thought范式都有实用贡献,数据和模型均开源