GrammaMT: Improving Machine Translation with Grammar-Informed In-Context Learning¶

会议: ACL 2025 | arXiv: 2410.18702 | 代码: 无 | 领域: 文本生成 | 关键词: 机器翻译, 语法信息, 上下文学习, 低资源语言, 语素间注释

一句话总结¶

提出 GrammaMT，利用语素间注释文本 (Interlinear Glossed Text, IGT) 的语法信息来增强 LLM 的 few-shot 机器翻译，在濒危语言上平均提升 12+ BLEU，在中高资源语言上也有一致改进。

研究背景与动机¶

领域现状: LLM 在高资源语言上的机器翻译已表现出色，但对低资源语言尤其是濒危语言的翻译质量仍然很差。要利用现有 LLM 翻译低资源语言，需要满足：(i) 无需训练；(ii) 仅需少量数据；(iii) 数据易于收集。
现有痛点: 现有方法或依赖大规模语料微调（低资源不可行），或需要完整的语法书、词典等资源（如 LingoLLM），获取成本高。标准的 few-shot 方法虽简单但效果有限。
核心矛盾: 低资源/濒危语言的翻译需求迫切，但可用数据和语言资源极度匮乏。如何用最少、最易获取的语言学信息最大化翻译质量是核心问题。
本文要解决什么: 设计一种无需训练、仅需少量语言学注释就能提升 LLM 翻译低资源语言能力的方法。
切入角度: 利用 Interlinear Glossed Text (IGT)——语言学中常见的语素级注释格式，包含源句、注释行和目标翻译的三元组——作为语法信息注入 LLM prompt。
核心 idea 一句话: 将 IGT 语法注释嵌入 few-shot prompt 中，用最小的语言学标注成本换取低资源翻译的显著提升。

方法详解¶

整体框架¶

GrammaMT 提出三种 prompting 策略，均无需训练，仅需 21 个 IGT 示例：

关键设计¶

1. Gloss-shot¶

在 few-shot 示例中加入 IGT 注释三元组（源句 + gloss + 翻译），让 LLM 从语法示例中学习源语言结构：

\[(\mathbf{g}_1, \cdots, \mathbf{g}_N, \mathbf{x}) \rightarrow \mathbf{y}\]

2. Chain-gloss¶

类似链式思维 (Chain-of-Thought)，要求 LLM 先生成输入句子的 gloss，再进行翻译：

\[(\mathbf{g}_1, \cdots, \mathbf{g}_N, \mathbf{x}) \rightarrow (\mathbf{y}_g, \mathbf{y})\]

这增加了可解释性，但依赖 LLM 自身的 gloss 生成能力。

3. Model-gloss¶

使用外部 gloss 生成模型（如 GlossLM）为输入句子生成 gloss，避免 LLM 自身 gloss 不准：

\[(\mathbf{g}_1, \cdots, \mathbf{g}_N, \mathbf{x}, \mathbf{y}_{ge}) \rightarrow \mathbf{y}\]

IGT 格式说明¶

IGT 注释是语言学描述的标准格式，例如斯瓦希里语： - Source: (yeye) alimwona (yeye) - Gloss: 3SG-PST-see-FV 3SG（大写=语法语素，小写=词汇语素） - Translation: S/he saw him/her

实验设置¶

模型: 主要使用 Meta-Llama-3-70B-Instruct（4-bit 量化），也测试 8B、Mixtral-8x22B、GPT-4o
N-shot: 所有策略统一使用 21 个示例（消融实验证明最优）
评估指标: BLEU (SacreBLEU), chrF++, xCOMET-XXL
解码: 贪心解码，temperature=1

实验关键数据¶

主实验 — 濒危/未见语言 (SIGMORPHON 2023)¶

方法	BLEU Avg.	chrF++ Avg.	xCOMET Avg.
NLLB-200	0.55	13.80	12.82
zero-shot	0.88	18.05	15.21
few-shot	3.94	21.85	16.76
gloss-shot	3.41	22.50	18.21
chain-gloss	4.25	20.84	16.78
model-gloss	15.97	41.45	40.83
LingoLLM (GPT-4)	14.1	—	—

model-gloss 相对 few-shot 平均提升 12.03 BLEU，且超越了使用更多语言资源的 LingoLLM。

主实验 — 低资源语言 (GlossLM)¶

方法	BLEU Avg. (5 lang)	chrF++ Avg.	xCOMET Avg.
few-shot	16.69	36.96	34.52
gloss-shot	16.39	36.88	35.65
chain-gloss	17.06	37.10	35.77

Yoruba 上改进最显著：few-shot 11.98 → gloss-shot 16.32（+4.34 BLEU）。

主实验 — 中高资源语言¶

方法	BLEU Avg. (7 lang)
few-shot	18.95
gloss-shot	18.61
chain-gloss	19.75

Urdu 和 Russian 上 chain-gloss 比 few-shot 高出 2.5+ BLEU。

消融实验¶

分析	关键发现
N-shot 数量	N=21 最优，过多增加效果平台
Gloss 准确率	Llama 对 Tsez 仅 21% word accuracy，GlossLM 达 88% → 直接解释 model-gloss 优势
Oracle 实验	使用 gold gloss 平均提升 17.46 BLEU（±6.6），zero-gloss 也超越 few-shot → 证明 gloss 本身极有价值
语法标注作用	去掉语法标注仅保留词汇语素后性能下降 → 语法信息不仅仅是词对词翻译
跨模型泛化	GPT-4o 上 model-gloss 在 SIGMORPHON 达 18.69 avg BLEU，小模型 Llama-8B 也有效
域外泛化 (FLORES)	gloss-shot 最佳（avg 21.64 vs few-shot 20.69），chain-gloss 在域外数据上表现不稳定

关键发现¶

model-gloss 在濒危语言上表现最佳: 依赖外部 gloss 模型的准确性，但提升巨大
chain-gloss 在低/中/高资源语言上更实用: 不依赖外部模型，在多数语言上均有提升
gloss-shot 在域外设置最稳健: 仅将 gloss 作为示例而不生成 gloss，适用范围最广
oracle 实验揭示上限: 准确的 gloss 可带来 17+ BLEU 的提升，说明自动 gloss 生成模型的开发非常值得

亮点与洞察¶

极低门槛的语言学增强: 仅需 21 个 IGT 三元组，且这类标注在语言学描述中非常常见，远比语法书、词典容易获取
链式思维的语言学实例化: chain-gloss 是 CoT 在翻译任务中的自然变体，且语法注释比"让模型一步步思考"有更明确的结构
三种策略覆盖不同场景: model-gloss 适合有 gloss 模型的语言，chain-gloss 适合通用场景，gloss-shot 适合域外迁移

局限性/可改进方向¶

主要评估翻译到英语（→en）方向，反向翻译（en→）仅做了初步探索
gloss-shot 的可解释性较差，不清楚非相关示例中的 gloss 如何影响翻译
chain-gloss 在域外数据上不稳定，可能因为 GlossLM 中的短句 gloss 与 FLORES 的长句分布不匹配
受限于 IGT 数据可用性，未涵盖所有语系

评分¶

新颖性: ⭐⭐⭐⭐ — 利用 IGT 这一语言学标准工具增强 LLM 翻译是新颖且自然的思路
实验充分度: ⭐⭐⭐⭐⭐ — 3 个数据集 × 16 种语言 × 4 个模型 × 多种消融，非常全面
写作质量: ⭐⭐⭐⭐ — 结构清晰，消融分析深入，ablation 设计精巧
价值: ⭐⭐⭐⭐⭐ — 对濒危语言翻译有重大实用价值，方法简单有效且门槛极低