DRT: Deep Reasoning Translation via Long Chain-of-Thought¶

会议: ACL 2025
arXiv: 2412.17498
代码: https://github.com/krystalan/DRT (有，含数据和模型)
领域: LLM推理
关键词: 机器翻译, Chain-of-Thought, 文学翻译, 多智能体, 隐喻翻译

一句话总结¶

将长 CoT 推理引入机器翻译，构建多智能体框架（翻译器→顾问→评估器）迭代精炼含比喻/隐喻的文学翻译，合成 22K 长思维翻译训练样本，训练的 DRT-14B 在文学翻译上超越 QwQ-32B 和 DeepSeek-R1-Distill-32B 等大模型。

研究背景与动机¶

领域现状：O1 类模型通过长 CoT 在数学和编程推理上取得突破，但翻译领域尚未系统探索 long-thought 推理的价值。现有翻译模型多为单次生成，缺少迭代精炼过程。
现有痛点：(a) 含比喻、隐喻的文学句子直译不通——需要理解修辞意图再意译；(b) 通用 DeepSeek-R1 蒸馏模型在翻译上推理能力不匹配（如 DeepSeek-R1-Distill-Qwen-7B GEA 仅 43.66）；(c) 缺乏大规模的长思维翻译训练数据。
核心矛盾：文学翻译需要深度语义理解和多步推敲，但现有模型一步到位的生成方式无法捕捉这种迭代精炼过程。
本文要解决什么？ (a) 构建文学翻译场景下的长思维训练数据集；(b) 训练专门的 DRT 模型，使小模型也能进行高质量文学翻译。
切入角度：文学中的比喻和隐喻翻译天然需要"先理解→再尝试→被批评→再改进"的多步推理，这与 long-thought 推理的本质一致。
核心 idea 一句话：用多智能体迭代精炼生成文学翻译的长思维训练数据，然后微调 LLM 使其内化这种迭代推敲过程。

方法详解¶

整体框架¶

三步流水线：(1) 文学挖掘——从古登堡计划 400 本英文书中筛选含比喻/隐喻且直译不佳的句子（63K 条）；(2) 多智能体迭代精炼——翻译器+顾问+评估器协作，逐步改进翻译至质量达标；(3) 长思维重组——去除无效迭代，用 GPT-4o 将多智能体对话重组为连贯的自我反思描述，最终得到 22,264 个训练样本。

关键设计¶

文学句子筛选（两阶段过滤）:
做什么：从 577.6K 句中筛选出需要深度翻译的句子
核心思路：用 Qwen2.5-72B-Instruct 做两次判断——Q1: 是否含比喻/隐喻？(保留 yes) Q2: 直译是否能满足母语者？(保留 no)
设计动机：只有真正需要推敲的句子才值得使用长思维，一般句子直译即可
多智能体迭代精炼:
做什么：三个 agent 协作迭代改进翻译
核心思路：Phase 1 - 翻译器做关键词级翻译（分解子问题）；Phase 2 - 生成初始全文翻译 \(t^0\)；Phase 3 - 迭代循环：Advisor 评估 \(t^{k-1}\) 给反馈 \(f^{k-1}\)，Evaluator 打分 \(s^{k-1}\)，Translator 根据反馈和分数生成精炼翻译 \(t^k\)。达到分数阈值或最大迭代次数时停止
设计动机：模拟人类译者的推敲过程——初译→审校→修改→再审校
长思维重组:
做什么：将多智能体对话转化为单模型可学习的连贯长思维格式
核心思路：去除分数不提升的无效迭代轮，过滤少于 3 步有效精炼的样本，用 GPT-4o 将多 agent 对话改写为连贯的自我反思叙述。最终输出选择得分最高的翻译（不一定是最后一轮）
设计动机：多 agent 对话格式不适合单模型 SFT，需要统一为" 思考过程→最终翻译"格式

数据统计¶

22,264 样本（训练 19,264 / 验证 1,000 / 测试 2,000）
平均思维 token: 527.64，平均精炼步骤: 4-5 步
73.22% 样本有 3 步精炼

训练策略¶

基于 Qwen2.5-7B/14B 和 LLaMA-3.1-8B 做全参数 SFT
使用 LlamaFactory 框架，vLLM 加速推理

实验关键数据¶

主实验（英→中文学翻译）¶

模型	GEA ↑	GRF ↑	CometKiwi ↑	BLEU ↑
Qwen2.5-14B-Instruct	70.86	84.74	72.01	30.23
QwQ-32B-Preview	75.50	86.31	71.48	27.46
DeepSeek-R1-Distill-Qwen-32B	71.88	84.78	71.93	29.36
Qwen2.5-14B-SFT (w/o CoT)	74.53	85.66	72.08	37.63
DRT-14B	77.41	87.19	72.11	36.46

DRT-14B 在无参考指标（GEA, GRF）上显著领先 32B 级模型。

人类评估（200 样本，Best-Worst Scaling）¶

模型	流畅度	语义准确度	文学性
Qwen2.5-14B-Instruct	-0.353	-0.363	-0.442
QwQ-32B-Preview	-0.063	0.022	-0.007
Qwen2.5-14B-SFT	0.103	0.108	0.087
DRT-14B	0.313	0.233	0.362

DRT-14B 在文学性上大幅领先（0.362 vs 0.087/0.007）。

消融实验¶

配置	GEA	说明
DRT-7B	75.05	完整模型
Qwen2.5-7B-SFT	72.29	w/o 长思维，差 2.76
DRT-14B	77.41	完整模型
Qwen2.5-14B-SFT	74.53	w/o 长思维，差 2.88

关键发现¶

长思维对无参考指标提升显著但可能降低 BLEU：DRT-14B GEA +2.88 但 BLEU -1.17，因为推理产生的翻译更自由，偏离了参考翻译
评估器准确率 92.5%：远超 CometKiwi (56%)，证明 LLM-as-evaluator 在文学翻译评估上的有效性
推理代价：12× 慢：长思维翻译比标准翻译慢 11.9-13.9 倍，仅适合高质量需求场景
精炼步骤有效递减：Step 0→1 改动最大（21.44字符），后续每步改动逐渐减小

亮点与洞察¶

翻译领域的 O1 范式：首次系统性地将长 CoT 推理引入翻译，证明在需要深度语义理解的文学翻译场景中，推理确实有帮助
多 agent 对话→单模型长思维的数据转化：先用多 agent 生成高质量精炼过程，再重组为单模型可训练的格式，这种数据合成范式可迁移到其他需要迭代推敲的任务（如学术写作、代码审查）
14B 模型超越 32B：DRT-14B 在多项指标上超过 QwQ-32B 和 DeepSeek-R1-Distill-32B，说明领域专精的长思维数据比通用推理能力更重要

局限性 / 可改进方向¶

仅支持英→中：未验证其他语言对
仅适用于文学翻译：一般翻译不需要长思维，12× 的推理代价不划算
自动评估不可靠：BLEU 和 COMET 对文学翻译的相关性低，重度依赖人类评估
数据合成成本高：多 agent 迭代 + GPT-4o 重组
可改进：(a) 可以扩展到其他需要推敲的翻译场景（法律、医学）；(b) 可以训练轻量评估器替代 72B 模型

评分¶

新颖性: ⭐⭐⭐⭐ 首次将长CoT推理系统应用于翻译领域，数据合成流水线设计巧妙
实验充分度: ⭐⭐⭐⭐ 自动指标+人类评估+消融+商业模型对比，多维度验证
写作质量: ⭐⭐⭐⭐ 数据合成流程清晰，评估全面
价值: ⭐⭐⭐⭐ 对文学翻译和long-thought范式都有实用贡献，数据和模型均开源