跳转至

Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs

会议: ACL 2025
arXiv: 2410.15956
代码: 无
领域: LLM NLP / 多语言
关键词: 多语言LLM, 自然度评估, 英语偏见, 词汇分布, 句法自然度

一句话总结

本文揭示多语言 LLM 在非英语语言生成中存在"英语口音"——词汇和句法上偏向英语模式,提出了基于 JSD(词汇分布)和 WL 图核+MMD(句法依赖树)的语料级自然度指标,并通过 DPO 对齐方法有效提升目标语言的自然度。

研究背景与动机

  1. 领域现状:当前多语言 LLM 以英语为主导(Llama 3.1 训练数据仅 8% 非英语),即使声称支持多语言的模型也展现出强烈的英语中心偏见。
  2. 现有痛点
  3. 多语言 LLM 评估主要关注任务性能(MMLU、BLEU 等),忽视了语言自然度
  4. LLM 在非英语语言中生成不自然的表达——类似于说英语的人学外语时的"口音"
  5. 训练数据中大量翻译文本带有翻译腔(translationese),被模型学习后放大
  6. 缺乏系统的多语言自然度评估指标
  7. 核心矛盾:多语言 LLM 可能在任务基准上得分不错,但生成的非英语文本读起来不像母语者写的——词汇选择和语法结构都带有英语痕迹。
  8. 本文要解决什么? 设计自动化指标量化多语言 LLM 的自然度,并提出改进方法。
  9. 切入角度:将自然度问题解耦为词汇自然度和句法自然度两个维度,在语料级别(而非句子级别)进行统计比较。
  10. 核心 idea 一句话:通过比较 LLM 生成文本与母语者文本的词汇分布和依赖树分布来量化"英语口音"程度。

方法详解

整体框架

评估框架:构建话题对齐的多语言数据集(Wikipedia 条目)→ 让 LLM 在各语言生成描述 → 用词汇和句法指标比较 LLM 输出与人类文本的分布差异。改进框架:构建偏好数据(人类文本 vs 人工扭曲的不自然文本)→ DPO 训练。

关键设计

  1. 词汇自然度(Lexical Naturalness):
  2. 做什么:比较 LLM 生成文本与人类文本的词汇分布差异
  3. 核心思路:计算两者词汇分布的 Jensen-Shannon Divergence (JSD)。\(\text{JSD}(P||Q) = \frac{1}{2}(D_{KL}(P||M) + D_{KL}(Q||M))\)\(M = \frac{1}{2}(P+Q)\)。在词级别(非子词级别)计算,JSD 低 = 词汇更自然
  4. 设计动机:不依赖外部嵌入模型(避免引入嵌入模型自身的英语偏见),直接比较词频分布,隐式捕获 type-token ratio 等统计特征

  5. 句法自然度(Syntactic Naturalness):

  6. 做什么:比较 LLM 生成文本与人类文本的依赖树结构分布差异
  7. 核心思路:用 Universal Dependencies 解析每个句子为依赖树 → 用 Weisfeiler-Lehman (WL) 图核计算树对间的结构相似度 → 用 Maximum Mean Discrepancy (MMD) 度量两组树分布的差异
  8. 设计动机:UD 框架跨语言一致,WL 图核能捕获层次化的子树模式,MMD 是分布比较的经典方法。整体管线透明可解释、不依赖语言模型嵌入

  9. DPO 自然度对齐:

  10. 做什么:通过偏好学习提升目标语言的自然度
  11. 核心思路:构造偏好数据——正例是人类母语写的文本,负例是同义但人工扭曲为不自然的文本(如引入翻译腔、替换为英语化表达等)。用 DPO 训练让模型偏好自然表达
  12. 设计动机:不需要预训练的自然度分类器(避免过拟合),直接用 manipulated 负例构造偏好数据,简单有效

评估设置

  • 模型:Qwen1.5-7B、Qwen2-7B、Mistral-v0.3-7B、Mistral-Nemo-12B、Llama-3-8B、Llama-3.1-8B
  • 语言:英语、法语、中文
  • 数据:3722 个话题对齐的 Wikipedia 条目

实验关键数据

主实验

模型 英语 词汇↓ 英语 句法↓ 中文 词汇↓ 中文 句法↓ 法语 词汇↓ 法语 句法↓
人类基线 23.07 3.53 25.91 2.93 24.25 3.22
Qwen1.5-7B 30.36 22.19 41.00 23.33 38.35 24.21
Llama-3.1-8B 26.79 16.80 33.29 10.32 31.52 11.27
Mistral-Nemo-12B 25.12 14.77 34.78 12.84 31.34 14.72

消融实验

DPO 自然度对齐效果(中文):

指标 对齐前 对齐后 变化
词汇 JSD 33.29 降低 改善
句法 MMD 10.32 降低 改善
通用任务性能 baseline 持平 不损害

关键发现

  • 所有 LLM 在非英语语言上的词汇和句法发散度都远高于英语,证实了"英语口音"的存在
  • 中文的自然度差距最大(词汇 JSD 人类 25.91 vs 最差 41.00),说明与英语差距越大的语言受英语偏见影响越重
  • Llama-3.1 比 Llama-3 在所有语言上自然度都有提升,说明多语言数据比例的增加有效
  • 句法差距比词汇差距更大(相对于人类基线),表明 LLM 的语法结构英语化问题更严重
  • DPO 对齐后自然度显著提升,且不损害通用任务基准成绩

亮点与洞察

  • "英语口音"的类比生动准确:将 LLM 多语言生成比作英语母语者学外语时的"口音",直观易懂。这个视角将语言学概念(translationese)引入 LLM 评估。
  • 不依赖外部语言模型的指标设计:避免了"用英语偏见的模型来评估英语偏见"的循环问题。JSD 和 WL 图核+MMD 都是经典统计方法,透明可解释。
  • 语料级而非句子级评估:单条文本可能看不出问题,但统计模式在语料层面显现——这是一个重要的方法论贡献。

局限性 / 可改进方向

  • 仅在英法中三种语言上验证,更多语言(尤其是低资源语言)的适用性未知
  • DPO 对齐需要人工构造不自然负例,构造质量影响效果
  • 指标只关注语言形式(词汇和句法),不涉及语义自然度
  • Wikipedia 数据的领域特定性——在对话、新闻等其他领域的表现可能不同

相关工作与启发

  • vs 翻译腔检测: 翻译腔研究用训练分类器区分原创/翻译文本,本文提出不需要训练的统计指标,更通用
  • vs MAUVE: MAUVE 用语言模型嵌入计算分布散度,本文避免使用嵌入模型(避免引入偏见),直接比较词频和句法树
  • vs 多语言 LLM 分析 (Wendler et al.): 他们证明 LLM 内部概念空间偏向英语,本文从输出层面量化这种偏见如何影响生成质量

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "英语口音"视角新颖,语料级自然度指标填补空白
  • 实验充分度: ⭐⭐⭐⭐ 6个模型3种语言,但 DPO 改进只在中文上充分验证
  • 写作质量: ⭐⭐⭐⭐⭐ 类比巧妙,指标设计动机清晰,跨学科(语言学+NLP)结合好
  • 价值: ⭐⭐⭐⭐⭐ 对多语言 LLM 评估和改进有重要参考价值