Read it in Two Steps: Translating Extremely Low-Resource Languages with Code-Augmented Grammar Books¶

会议: ACL 2025
arXiv: 2506.01796
代码: https://github.com/Infinite-set/ZhuangRules
领域: LLM NLP / Low-Resource Translation
关键词: extremely low-resource translation, grammar book, code representation, Zhuang language, rule retrieval

一句话总结¶

将语法书辅助的极低资源翻译（XLR MT）分解为语法规则检索和规则应用两步，并提出用代码格式表示语法规则以提升 LLM 在两步中的表现，在壮语翻译上实现了 13.1% BLEU 的提升。

研究背景与动机¶

大多数人类语言面临数据稀缺问题，传统预训练/微调方法对极低资源语言不可行。LLM 通过上下文学习（ICL）利用语言学资源（词典、平行句对）进行 XLR MT 展现了潜力。语法书作为系统性的语言学描述理论上最适合指导翻译，但其有效性存在争议：部分研究声称有效，另一部分认为 LLM 只是从语法书中提取了双语词汇解释作为捷径，而非真正理解语法规则。问题在于缺乏能排除这些干扰因素的数据集来评估 LLM 是否真正理解语法。

方法详解¶

整体框架¶

将语法书辅助翻译分解为两步： 1. 语法规则检索（Rule Retrieval）：给定待翻译句子，从语法书中找到所需的语法规则 2. 语法规则应用（Rule Application）：根据提供的规则完成翻译

引入 ZhuangRules 数据集支持受控实验，并提出代码格式语法规则来增强 LLM 的两步能力。

关键设计¶

ZhuangRules 数据集：109 条壮语原子语法规则，每条平均配 5.6 个壮中平行句对（共 608 对）。每个测试句对附带覆盖所有相关词汇的壮中词典，将语法理解与词汇知识解耦。规则按动作、难度（easy/medium/hard，平均操作数 1.2/1.5/2.1）和语言学领域（形态学、词序等）标注。
Pilot Study 发现：提供无关规则数量增加时翻译性能急剧下降，证明规则检索是关键瓶颈。仅提供所需规则 vs 提供全部规则，前者显著优于后者。
Rule-by-Rule 检索：不一次提供整本语法书（Full-Book），而是逐条判断每条规则是否与待翻译句子相关（二分类），降低了长上下文理解的需求。
代码格式语法规则：利用语法规则操作（如加词缀→算术运算，条件选择→if-else）与代码结构的天然相似性，用 GPT-4o 将文本规则转换为伪代码函数。每条代码规则包含：简要注释 + Python 伪代码函数。

损失函数 / 训练策略¶

本文不训练模型，全部基于 ICL。代码规则转换用 GPT-4o 5-shot ICL 完成。翻译实验中平行例句用 2-shot ICL。IGT（Interlinear Glossed Text）由 GPT-4o 生成，以 123 个手工 IGT 作为 ICL 示例，正确率约 72%。

实验关键数据¶

主实验¶

规则检索（ZhuangRules, Table 1）：

方法	za→zh recall	zh→za recall
BM25 rec@5	41.6	27.3
Full-Book Qwen-72B	52.8	49.4
Rule-by-Rule Qwen-72B (text)	89.4	84.7
Rule-by-Rule Qwen-72B (code)	89.6	87.1
Rule-by-Rule Llama-70B (text)	69.7	75.8
Rule-by-Rule Llama-70B (code)	82.2	87.5

代码格式在 Llama-70B 上提升检索 recall 约 +12.5%/+11.7%，在 Qwen-7B 上提升更为显著。

规则应用（ZhuangRules, Table 2, 平均 BLEU/chrF++）：

设置	平均 BLEU/chrF++
No Rule	25.5 / 38.0
Gold Textual Rule	45.7 / 60.7
Gold Code Rule	57.9 / 69.2
Gold Textual Rule + Parallel Examples	70.2 / 75.4
Gold Code Rule + Parallel Examples	72.4 / 77.9

代码规则相比文本规则在规则应用上提升 +12.2 BLEU（45.7→57.9），结合 parallel examples 后达到最优 72.4 BLEU。

端到端最佳实践：Code Rule + Rule-by-Rule 检索比 Full-Book + Textual Rule 端到端翻译提升 13.1% BLEU。

跨语言验证（MTOB, Kalamang, Table 3）：Gold Code Rule 在 kgv→eng (16.0 vs 14.6 BLEU) 和 eng→kgv (44.5 vs 43.8 BLEU) 上均优于 Gold Textual Rule，证明代码格式的跨语言泛化能力。

关键发现¶

规则检索是主要瓶颈：Full-Book 方式 recall 仅约 50%，BM25 基线更差。LLM 难以从完整语法书中定位所需规则。
Rule-by-Rule 大幅优于 Full-Book：将长上下文理解问题简化为二分类，recall 从 ~50% 提升到 ~89%。
代码格式全面提升两步能力：检索 recall +8.8%，应用 BLEU +12.2%，互相独立且可叠加。
复杂规则仍是挑战：涉及多个操作的 hard 规则性能降至 easy 规则的约一半。
辅助元素有用：平行例句和 IGT 都能进一步提升规则应用性能，但 IGT 仅支持低→高资源方向。

亮点与洞察¶

问题分解思想精妙：将端到端语法书翻译拆为检索+应用，精确定位瓶颈（检索），并针对性解决。
代码表示语法规则的灵感来自代码增强推理（Liu et al., 2023; Li et al., 2024），但应用于语言学领域是首次，且效果显著。
ZhuangRules 数据集设计考究：通过提供词典排除词汇知识干扰，通过原子规则+难度标注支持受控分析，填补了 XLR MT 可解释性评估的空白。
Rule-by-Rule 策略简单但有效：将长上下文检索转化为短上下文二分类，本质上是用更多 API 调用换取准确率。

局限性¶

仅在壮语和 Kalamang 两种极低资源语言上实验，泛化到其他语言有待验证。
代码规则的转换依赖 GPT-4o，对于更复杂或不规则的语法是否同样有效未可知。
Rule-by-Rule 策略需要对每条规则单独查询 LLM，计算开销显著高于 Full-Book（109 次查询 vs 1 次）。
ZhuangRules 仅覆盖 109 条规则，实际语法书通常更大更复杂。
IGT 生成质量（72% morpheme 正确率）仍有提升空间。

评分¶

新颖性: 5/5 — 两步分解+代码格式语法规则的组合非常新颖
技术深度: 4/5 — 实验设计受控、分析细致，数据集构建用心
实验充分性: 4/5 — 3 个模型、2 个数据集、多种消融实验
实用价值: 4/5 — 为极低资源翻译提供了可行的新范式
推荐指数: ⭐⭐⭐⭐⭐