SwiLTra-Bench: The Swiss Legal Translation Benchmark¶

会议: ACL 2025
arXiv: 2503.01372
代码: 有（论文提供了 Datasets 和 Code 链接）
领域: 机器翻译 / 法律NLP
关键词: 法律翻译, 多语言基准, 瑞士法律, LLM翻译评估, 微调

一句话总结¶

构建了 SwiLTra-Bench——一个包含超过 18 万对齐瑞士法律翻译对的大规模多语言基准（覆盖法律、判例摘要、新闻稿，涵盖德法意罗英五种语言），系统评估了前沿 LLM 和微调开源 SLM 在法律翻译上的表现，并提出 SwiLTra-Judge 自动评估方法。

研究背景与动机¶

瑞士是一个拥有四种官方语言（德语、法语、意大利语、罗曼什语）的国家，法律文件必须翻译为多种语言。传统法律翻译依赖既懂法律又懂语言的专业人员，形成严重的翻译瓶颈，影响了司法公平获取。

现有的神经机器翻译（NMT）系统在法律文本上表现受限，原因在于： 1. 法律语言具有独特的话语结构和专业术语 2. 缺乏高质量的多语言法律平行语料 3. 低资源语言（如罗曼什语）的翻译覆盖尤其困难

此前虽有初步探索，但尚不清楚当前 LLM 在大规模瑞士法律翻译基准上的实际表现，无论是零样本还是微调场景。

方法详解¶

整体框架¶

本工作包含三个核心贡献： 1. SwiLTra-Bench 数据集：大规模多语言法律翻译基准 2. 全面模型评估：首次大规模比较前沿 LLM 和微调 SLM 3. SwiLTra-Judge：与人类专家评估对齐的 LLM 评估方法

关键设计¶

三类法律文本子数据集:
- CH-Law-Trans（瑞士法律翻译）：包含法律级、条款级、段落级翻译，覆盖 5 种语言（德法意罗英），段落级训练集 15 万+对
- CH-Headnote-Trans（判例摘要翻译）：来自瑞士联邦最高法院的标志性判例，包含 BGE/Regest/Text 三个层级，训练集 2.6 万+对
- CH-Press-Trans（新闻稿翻译）：法院新闻稿，训练集 867 对
- 所有数据利用政府官方 HTML 结构进行高质量对齐，而非自动句对齐
五类模型全面评估: 系统比较了翻译专用模型（MADLAD-400、Tower-Instruct）、前沿模型（Claude-3.5-Sonnet、GPT-4o、Gemini-1.5-Pro 等）、推理模型（o1）、开源 SLM 和微调模型，覆盖零样本和微调两种设置。评估指标包括词汇级（BLEU、ChrF、METEOR）和模型级（BERTScore、BLEURT、XCOMET、GEMBA-MQM）。
SwiLTra-Judge 评估系统: 设计了专门的 LLM 评估系统，用于自动评估翻译质量。通过与人类专家标注的对比验证，SwiLTra-Judge 与专家评估的一致性最高，为法律翻译提供了可靠的自动评估框架。

损失函数 / 训练策略¶

微调设置： - 使用 4-bit 量化 + 8-bit AdamW 优化器 - Rank Stabilized LoRA（rank=16, alpha=16） - 序列长度 512（覆盖 99%+训练数据） - 使用 packing 技术，batch size 128 - 线性学习率调度，1000 步 warmup，学习率 1e-4 - 早停（patience=3），大多数模型在 1 epoch 后达到最低验证损失 - 微调了 13 个开源模型（Gemma、Llama、Phi、Qwen 系列）

实验关键数据¶

主实验¶

翻译模型对比（平均分，越高越好）：

模型	大小	GEMBA-MQM	XCOMET	METEOR	ChrF
Google Translate	N/A	53.20	64.61	41.15	47.81
MADLAD-400-7B	7B	62.66	87.40	43.70	51.67
Tower-Instruct-13B	13B	57.38	75.94	43.95	48.46
Claude-3.5-Sonnet	large	80.66	90.70	56.71	65.87
GPT-4o	large	80.27	80.96	55.56	63.27
Gemini-1.5-Pro	large	81.88	87.13	57.92	70.07
o1	large	85.81	91.35	58.91	70.11
GPT-4o-mini	small	82.59	87.90	54.03	59.86

消融实验¶

配置	关键指标	说明
翻译模型 vs 前沿模型	MADLAD-400 在 XCOMET 上超过 GPT-4o	翻译专用模型在法律文本上具有竞争力
零样本 vs 微调 SLM	微调大幅提升质量但仍落后前沿零样本模型	微调后差距缩小但未消除
法律 vs 判例摘要	翻译模型在法律上强但判例摘要上弱	文本类型影响模型表现
跨语言表现	各语言间翻译质量相对均匀	多语言覆盖较为平衡

关键发现¶

o1 推理模型总分最高（GEMBA-MQM 85.81），但成本远高于 Claude-3.5-Sonnet，后者性价比最优
MADLAD-400 在法律翻译上出人意料地强，XCOMET 超过 GPT-4o（87.40 vs 80.96）
微调开源 SLM 显著提升质量但仍落后于最佳零样本前沿模型
Google Translate 表现意外糟糕（GEMBA-MQM 仅 53.20）
人类专家在法律翻译上的一致性高于判例摘要，反映法律文本的标准化程度更高
Claude-3.5-Haiku 等小型前沿模型的成本效益值得关注

亮点与洞察¶

数据集质量高：利用政府官方 HTML 结构对齐，避免了传统自动句对齐的噪声
评估全面：五类模型 × 七种指标 × 三种文本类型的完整矩阵
实际应用价值大：直接服务于瑞士政府的法律翻译需求和司法公平
对低资源语言（罗曼什语）的覆盖有特殊意义

局限与展望¶

罗曼什语和英语在法律数据集中的覆盖有限（分别仅有约 2 万和 3 万段落级样本）
微调仅使用 LoRA 且序列长度限制在 512，对长法律文本可能不够
未评估翻译系统在实际法律工作流中的端到端效用
SwiLTra-Judge 的评估本身依赖 GPT-4o（GEMBA-MQM），存在循环依赖风险

评分¶

新颖性: ⭐⭐⭐ — 主要贡献是数据集和评估，方法上无显著创新
实验: ⭐⭐⭐⭐⭐ — 模型覆盖极广，评估指标全面，包含人类专家验证
写作: ⭐⭐⭐⭐ — 结构清晰，数据统计详尽
实用性: ⭐⭐⭐⭐ — 数据集和评估框架对法律翻译有直接实用价值