Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs¶

会议: ACL 2025
arXiv: 2410.15956
代码: 无
领域: LLM NLP / 多语言
关键词: 多语言LLM, 自然度评估, 英语偏见, 词汇分布, 句法自然度

一句话总结¶

本文揭示多语言 LLM 在非英语语言生成中存在"英语口音"——词汇和句法上偏向英语模式，提出了基于 JSD（词汇分布）和 WL 图核+MMD（句法依赖树）的语料级自然度指标，并通过 DPO 对齐方法有效提升目标语言的自然度。

评估框架：构建话题对齐的多语言数据集（Wikipedia 条目）→ 让 LLM 在各语言生成描述 → 用词汇和句法指标比较 LLM 输出与人类文本的分布差异。改进框架：构建偏好数据（人类文本 vs 人工扭曲的不自然文本）→ DPO 训练。

词汇自然度（Lexical Naturalness）:
做什么：比较 LLM 生成文本与人类文本的词汇分布差异
核心思路：计算两者词汇分布的 Jensen-Shannon Divergence (JSD)。\(\text{JSD}(P||Q) = \frac{1}{2}(D_{KL}(P||M) + D_{KL}(Q||M))\)，\(M = \frac{1}{2}(P+Q)\)。在词级别（非子词级别）计算，JSD 低 = 词汇更自然
设计动机：不依赖外部嵌入模型（避免引入嵌入模型自身的英语偏见），直接比较词频分布，隐式捕获 type-token ratio 等统计特征
句法自然度（Syntactic Naturalness）:
做什么：比较 LLM 生成文本与人类文本的依赖树结构分布差异
核心思路：用 Universal Dependencies 解析每个句子为依赖树 → 用 Weisfeiler-Lehman (WL) 图核计算树对间的结构相似度 → 用 Maximum Mean Discrepancy (MMD) 度量两组树分布的差异
设计动机：UD 框架跨语言一致，WL 图核能捕获层次化的子树模式，MMD 是分布比较的经典方法。整体管线透明可解释、不依赖语言模型嵌入
DPO 自然度对齐:
做什么：通过偏好学习提升目标语言的自然度
核心思路：构造偏好数据——正例是人类母语写的文本，负例是同义但人工扭曲为不自然的文本（如引入翻译腔、替换为英语化表达等）。用 DPO 训练让模型偏好自然表达
设计动机：不需要预训练的自然度分类器（避免过拟合），直接用 manipulated 负例构造偏好数据，简单有效

模型	英语词汇↓	英语句法↓	中文词汇↓	中文句法↓	法语词汇↓	法语句法↓
人类基线	23.07	3.53	25.91	2.93	24.25	3.22
Qwen1.5-7B	30.36	22.19	41.00	23.33	38.35	24.21
Llama-3.1-8B	26.79	16.80	33.29	10.32	31.52	11.27
Mistral-Nemo-12B	25.12	14.77	34.78	12.84	31.34	14.72

DPO 自然度对齐效果（中文）:

"英语口音"的类比生动准确：将 LLM 多语言生成比作英语母语者学外语时的"口音"，直观易懂。这个视角将语言学概念（translationese）引入 LLM 评估。
不依赖外部语言模型的指标设计：避免了"用英语偏见的模型来评估英语偏见"的循环问题。JSD 和 WL 图核+MMD 都是经典统计方法，透明可解释。
语料级而非句子级评估：单条文本可能看不出问题，但统计模式在语料层面显现——这是一个重要的方法论贡献。