Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs¶
会议: ACL 2025
arXiv: 2410.15956
代码: 无
领域: LLM NLP / 多语言
关键词: 多语言LLM, 自然度评估, 英语偏见, 词汇分布, 句法自然度
一句话总结¶
本文揭示多语言 LLM 在非英语语言生成中存在"英语口音"——词汇和句法上偏向英语模式,提出了基于 JSD(词汇分布)和 WL 图核+MMD(句法依赖树)的语料级自然度指标,并通过 DPO 对齐方法有效提升目标语言的自然度。
研究背景与动机¶
- 领域现状:当前多语言 LLM 以英语为主导(Llama 3.1 训练数据仅 8% 非英语),即使声称支持多语言的模型也展现出强烈的英语中心偏见。
- 现有痛点:
- 多语言 LLM 评估主要关注任务性能(MMLU、BLEU 等),忽视了语言自然度
- LLM 在非英语语言中生成不自然的表达——类似于说英语的人学外语时的"口音"
- 训练数据中大量翻译文本带有翻译腔(translationese),被模型学习后放大
- 缺乏系统的多语言自然度评估指标
- 核心矛盾:多语言 LLM 可能在任务基准上得分不错,但生成的非英语文本读起来不像母语者写的——词汇选择和语法结构都带有英语痕迹。
- 本文要解决什么? 设计自动化指标量化多语言 LLM 的自然度,并提出改进方法。
- 切入角度:将自然度问题解耦为词汇自然度和句法自然度两个维度,在语料级别(而非句子级别)进行统计比较。
- 核心 idea 一句话:通过比较 LLM 生成文本与母语者文本的词汇分布和依赖树分布来量化"英语口音"程度。
方法详解¶
整体框架¶
评估框架:构建话题对齐的多语言数据集(Wikipedia 条目)→ 让 LLM 在各语言生成描述 → 用词汇和句法指标比较 LLM 输出与人类文本的分布差异。改进框架:构建偏好数据(人类文本 vs 人工扭曲的不自然文本)→ DPO 训练。
关键设计¶
- 词汇自然度(Lexical Naturalness):
- 做什么:比较 LLM 生成文本与人类文本的词汇分布差异
- 核心思路:计算两者词汇分布的 Jensen-Shannon Divergence (JSD)。\(\text{JSD}(P||Q) = \frac{1}{2}(D_{KL}(P||M) + D_{KL}(Q||M))\),\(M = \frac{1}{2}(P+Q)\)。在词级别(非子词级别)计算,JSD 低 = 词汇更自然
-
设计动机:不依赖外部嵌入模型(避免引入嵌入模型自身的英语偏见),直接比较词频分布,隐式捕获 type-token ratio 等统计特征
-
句法自然度(Syntactic Naturalness):
- 做什么:比较 LLM 生成文本与人类文本的依赖树结构分布差异
- 核心思路:用 Universal Dependencies 解析每个句子为依赖树 → 用 Weisfeiler-Lehman (WL) 图核计算树对间的结构相似度 → 用 Maximum Mean Discrepancy (MMD) 度量两组树分布的差异
-
设计动机:UD 框架跨语言一致,WL 图核能捕获层次化的子树模式,MMD 是分布比较的经典方法。整体管线透明可解释、不依赖语言模型嵌入
-
DPO 自然度对齐:
- 做什么:通过偏好学习提升目标语言的自然度
- 核心思路:构造偏好数据——正例是人类母语写的文本,负例是同义但人工扭曲为不自然的文本(如引入翻译腔、替换为英语化表达等)。用 DPO 训练让模型偏好自然表达
- 设计动机:不需要预训练的自然度分类器(避免过拟合),直接用 manipulated 负例构造偏好数据,简单有效
评估设置¶
- 模型:Qwen1.5-7B、Qwen2-7B、Mistral-v0.3-7B、Mistral-Nemo-12B、Llama-3-8B、Llama-3.1-8B
- 语言:英语、法语、中文
- 数据:3722 个话题对齐的 Wikipedia 条目
实验关键数据¶
主实验¶
| 模型 | 英语 词汇↓ | 英语 句法↓ | 中文 词汇↓ | 中文 句法↓ | 法语 词汇↓ | 法语 句法↓ |
|---|---|---|---|---|---|---|
| 人类基线 | 23.07 | 3.53 | 25.91 | 2.93 | 24.25 | 3.22 |
| Qwen1.5-7B | 30.36 | 22.19 | 41.00 | 23.33 | 38.35 | 24.21 |
| Llama-3.1-8B | 26.79 | 16.80 | 33.29 | 10.32 | 31.52 | 11.27 |
| Mistral-Nemo-12B | 25.12 | 14.77 | 34.78 | 12.84 | 31.34 | 14.72 |
消融实验¶
DPO 自然度对齐效果(中文):
| 指标 | 对齐前 | 对齐后 | 变化 |
|---|---|---|---|
| 词汇 JSD | 33.29 | 降低 | 改善 |
| 句法 MMD | 10.32 | 降低 | 改善 |
| 通用任务性能 | baseline | 持平 | 不损害 |
关键发现¶
- 所有 LLM 在非英语语言上的词汇和句法发散度都远高于英语,证实了"英语口音"的存在
- 中文的自然度差距最大(词汇 JSD 人类 25.91 vs 最差 41.00),说明与英语差距越大的语言受英语偏见影响越重
- Llama-3.1 比 Llama-3 在所有语言上自然度都有提升,说明多语言数据比例的增加有效
- 句法差距比词汇差距更大(相对于人类基线),表明 LLM 的语法结构英语化问题更严重
- DPO 对齐后自然度显著提升,且不损害通用任务基准成绩
亮点与洞察¶
- "英语口音"的类比生动准确:将 LLM 多语言生成比作英语母语者学外语时的"口音",直观易懂。这个视角将语言学概念(translationese)引入 LLM 评估。
- 不依赖外部语言模型的指标设计:避免了"用英语偏见的模型来评估英语偏见"的循环问题。JSD 和 WL 图核+MMD 都是经典统计方法,透明可解释。
- 语料级而非句子级评估:单条文本可能看不出问题,但统计模式在语料层面显现——这是一个重要的方法论贡献。
局限性 / 可改进方向¶
- 仅在英法中三种语言上验证,更多语言(尤其是低资源语言)的适用性未知
- DPO 对齐需要人工构造不自然负例,构造质量影响效果
- 指标只关注语言形式(词汇和句法),不涉及语义自然度
- Wikipedia 数据的领域特定性——在对话、新闻等其他领域的表现可能不同
相关工作与启发¶
- vs 翻译腔检测: 翻译腔研究用训练分类器区分原创/翻译文本,本文提出不需要训练的统计指标,更通用
- vs MAUVE: MAUVE 用语言模型嵌入计算分布散度,本文避免使用嵌入模型(避免引入偏见),直接比较词频和句法树
- vs 多语言 LLM 分析 (Wendler et al.): 他们证明 LLM 内部概念空间偏向英语,本文从输出层面量化这种偏见如何影响生成质量
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "英语口音"视角新颖,语料级自然度指标填补空白
- 实验充分度: ⭐⭐⭐⭐ 6个模型3种语言,但 DPO 改进只在中文上充分验证
- 写作质量: ⭐⭐⭐⭐⭐ 类比巧妙,指标设计动机清晰,跨学科(语言学+NLP)结合好
- 价值: ⭐⭐⭐⭐⭐ 对多语言 LLM 评估和改进有重要参考价值