Investigating Language Preference of Multilingual RAG Systems¶

会议: ACL 2025
arXiv: 2502.11175
代码: GitHub
领域: NLP / 多语言检索增强生成
关键词: multilingual RAG, language preference, MLRS, DKM-RAG, cross-lingual retrieval

一句话总结¶

系统研究多语言 RAG 系统在检索和生成两个阶段的语言偏好问题，提出 MLRS 指标量化检索器对特定语言的偏好程度，揭示检索器偏好高资源语言和查询语言、生成器偏好查询语言和拉丁字母语言的现象，并设计 DKM-RAG 框架通过融合翻译段落与模型内部知识有效缓解偏好问题。

研究背景与动机¶

多语言检索增强生成（mRAG）系统通过整合多语言外部知识来增强 LLM 的回答能力，但面临严重的语言偏好问题，导致检索到的文档不是最优的、生成的答案不准确或不一致。

两个核心问题：

检索器语言偏好：检索器倾向于优先选择高资源语言（如英语）或与查询同语言的文档，即使低资源语言中包含更相关的信息。例如，韩语查询搜索多语言知识库时，英语文档可能因语言优势排名更高，而真正相关的韩语文档反而被埋没。这导致生成器因缺少相关输入而产生错误答案或拒绝回答。
生成器语言偏好：即使检索到了多语言相关文档，生成器也可能偏爱查询语言或拉丁字母语言的段落，忽视其他语言中的关键证据，导致跨语言回答不一致。

此前研究的不足：

主要关注有限的语言组合，未能反映不同语言文档的真实排序动态
Language-Preference-Based Re-ranking 等方法仅聚焦单一 mRAG 阶段
缺乏量化检索器语言偏好的标准指标

本文围绕三个研究问题展开：检索器偏好哪些语言？生成器偏好哪些语言以及如何影响性能？如何缓解语言偏好？

方法详解¶

整体框架¶

本文是一项系统性的实证研究 + 方法提出的工作，结构为： 1. 提出 MLRS 指标量化检索器语言偏好（RQ1） 2. 通过多语言答案一致性评估生成器语言偏好（RQ2） 3. 分析语言偏好与 mRAG 性能的相关性 4. 提出 DKM-RAG 框架缓解语言偏好（RQ3）

关键设计¶

MLRS（MultiLingualRankShift）指标:
- 功能：量化检索器对特定语言的偏好程度，回答"如果消除语言差异，排名会提升多少？"
- 核心思路：三阶段计算——(i) 对查询 \(q\) 从多语言知识库检索文档，获得初始排名 \(r_d^{init}\)；(ii) 将非查询语言文档翻译为查询语言；(iii) 对翻译后的文档重排序，衡量排名变化 \(\Delta r_d = \max(r_d^{init} - r_d^{re\text{-}rank}, 0)\)
- 归一化：\(MLRS_q = \frac{\Delta r_q}{\Delta r_q^{max}} \times 100\)，其中 \(\Delta r_q^{max}\) 为最大可能提升（所有文档都升到第一名），最终对所有查询取平均
- 核心洞察：如果翻译到某种目标语言后排名大幅上升，说明是语言差异（而非内容差异）导致了原始排名的下降——即存在对该目标语言的偏好
- 设计动机：现有方法仅用统计等价性测试或简单的公平性指标，无法精确捕捉排名动态中的语言偏好
生成器语言偏好评估:
- 功能：评估 LLM 在不同语言下回答的一致性，揭示生成器的语言倾向
- 核心思路：对同一查询和同一检索文档集，让生成器分别用 8 种语言（en, ko, zh, fr, ja, it, pt, es）回答，计算所有语言对之间回答的嵌入相似度（使用 LaBSE），得到 8×8 相似度矩阵。某语言的偏好 = 该语言回答与其余语言回答的平均相似度
- 设计动机：如果生成器不受语言偏好影响，那么同一输入下不同语言的回答应当语义一致
DKM-RAG（Dual Knowledge Multilingual RAG）:
- 功能：缓解 mRAG 中的语言偏好，提升跨语言回答质量
- 四步流程：
  - Step 1（检索+重排序）：从多语言知识库检索文档，使用 BGE-m3 重排序
  - Step 2（翻译）：将所有检索文档翻译为查询语言，得到 \(P_{translated}\)
  - Step 3（精炼）：用 Rewriter LLM 结合内部知识重写翻译段落——去除冗余、过滤不相关信息、补充可靠内容，得到 \(P_{refined}\)
  - Step 4（融合）：拼接 \(P_{translated}\) 和 \(P_{refined}\) 作为生成器的最终输入
- 设计动机：仅翻译可纠正语言不匹配但无法过滤高资源语言中的不相关内容；精炼利用模型内部知识可以进一步提升信息质量。双知识源（外部翻译 + 内部精炼）互补

损失函数 / 训练策略¶

本文不涉及模型训练——MLRS 是一个评估指标，DKM-RAG 是 inference-time 的框架，所有组件（检索器、翻译模型、重写者、生成器）直接使用现成模型：

检索器：BGE-m3（主要）、p-mMiniLM、p-mMpNet
翻译模型：NLLB-200-distilled-600M（主要）、GPT-4o-mini（翻译质量实验）
生成器：aya-expanse-8B、Qwen2.5-7B-Instruct、Phi-4 14B、Llama-3.1-8B-Instruct
语义相似度：LaBSE（多语言句子嵌入）
评估指标：character 3-gram recall
数据集：MKQA（10k 样本，25 种语言，基于英文 Wikipedia），取 2.7k 与 KILT NQ 重叠子集

实验关键数据¶

主实验¶

检索器语言偏好（MLRS 得分，BGE-m3）：

查询语言	同语言匹配	→ en	→ ko	→ zh	→ fr
en	56.03	—	33.02 (-23.0)	33.10 (-22.9)	36.61 (-19.4)
ko	43.49	41.15 (-2.3)	—	34.42 (-9.1)	36.42 (-7.1)
zh	45.26	44.98 (-0.3)	34.52 (-10.7)	—	36.34 (-8.9)
fr	43.18	47.23 (+4.1)	33.29 (-9.9)	33.58 (-9.6)	—

DKM-RAG 性能对比（character 3-gram recall）：

查询语言	模型	all	最优单语言	DKM-RAG
en	aya-expanse-8B	80.09	79.34 (en)	82.60
zh	aya-expanse-8B	32.55	38.31 (zh)	44.57
ko	aya-expanse-8B	40.60	49.66 (ko)	55.01
en	Phi-4	79.69	78.89 (en)	82.59
zh	Phi-4	16.75	36.76 (zh)	44.56
ko	Phi-4	26.80	49.25 (ko)	54.82

消融实验¶

DKM-RAG 消融（aya-expanse-8B）：

配置	Lq=en	Lq=zh	Lq=ko
DKM-RAG (完整)	82.60	44.57	55.01
w/o \(P_{refined}\)	79.34 (-3.26)	38.31 (-6.26)	49.66 (-5.35)
w/o \(P_{translated}\)	81.10 (-1.50)	39.44 (-5.13)	46.15 (-8.86)

两个组件都对性能至关重要：移除精炼段落 \(P_{refined}\) 导致非英语查询性能大幅下降（-5~6 点），移除翻译段落 \(P_{translated}\) 影响更大（-5~9 点），说明外部翻译知识和内部精炼知识的互补效应是 DKM-RAG 成功的关键。

关键发现¶

检索器强烈偏好同语言和高资源语言：同语言匹配时 MLRS 最高（56.03 for en-en），英语作为文档语言时几乎总获得最高偏好——甚至在非英语查询时也能超过同语言匹配（如法语查询时英语文档偏好 47.23 > 法语同语言 43.18）
语族相近的语言偏好差距较小：罗曼语族（法、意、葡、西）之间的跨语言偏好下降仅 1-6 点，而到东亚语言（中、日、韩）的下降达 7-23 点
文档语言资源比查询语言资源更关键：文档语言的资源水平对 MLRS 有显著影响（高资源 > 中资源 > 低资源），而查询语言的资源水平影响有限
生成器偏好拉丁字母语言和查询语言：拉丁字母语言（en, fr, it, pt, es）间的回答一致性远高于非拉丁语言（ko, zh, ja）；查询语言的回答一致性略高但提升有限
高偏好≠高性能：检索器偏好英语并不意味着用英语文档回答所有查询最好——非英语查询时，用查询语言文档回答效果更优
DKM-RAG 全面且大幅提升性能：在所有查询语言和所有生成器上均为最优，非英语查询的提升尤为显著（中文 +6~28 点，韩语 +5~28 点）

亮点与洞察¶

MLRS 指标设计精巧：通过"翻译后重排序"的反事实实验思路，巧妙地将语言因素与内容因素解耦，为量化语言偏好提供了标准化的工具
全面覆盖 mRAG 管线两侧：既分析检索器偏好又分析生成器偏好，并探究两者的交互关系，比此前只聚焦单一阶段的工作更有体系
"高偏好≠高性能"的反直觉发现：挑战了"用高资源语言主导 mRAG 即可提升性能"的简单假设
DKM-RAG 方法简洁有效：无需训练任何新模型，仅通过翻译+精炼+拼接的推理时流程即可大幅缓解语言偏好，易于即插即用

局限与展望¶

依赖翻译质量：MLRS 指标和 DKM-RAG 框架都高度依赖翻译模型的准确性，翻译错误可能扭曲原始语义
计算开销增加：MLRS 需要翻译+重排序，DKM-RAG 需要翻译+重写+拼接，在大规模实时系统中延迟和成本可能是瓶颈
语言覆盖有限：仅实验了 8 种语言（以高中资源语言为主），缺乏对低资源语言（如阿拉伯语、印地语、斯瓦希里语等）的验证
数据集局限：MKQA 基于英文 Wikipedia，知识根基偏向英语，可能不能完全反映真正多语言知识场景下的偏好
DKM-RAG 的精炼步骤黑箱化：Rewriter LLM 如何决定过滤/补充哪些信息缺乏可控性和可解释性
未探索可训练的融合机制：当前简单拼接翻译和精炼段落，动态加权或注意力融合可能更优

评分¶

新颖性: ⭐⭐⭐⭐ MLRS 指标设计新颖，首次系统研究 mRAG 全管线的语言偏好问题
实验充分度: ⭐⭐⭐⭐ 8 种语言、3 种重排序编码器、4 种生成器，实验覆盖检索+生成两个阶段，消融完整
写作质量: ⭐⭐⭐⭐ RQ 驱动的结构清晰，分析层层递进，从现象到解决方案逻辑完整
价值: ⭐⭐⭐⭐ 对多语言 RAG 系统的设计和部署有实际指导意义，MLRS 和 DKM-RAG 均可直接应用