Enhancing Multilingual RAG Systems with Debiased Language Preference-Guided Query Fusion¶

会议: ACL 2026
arXiv: 2601.02956
代码: GitHub
领域: 信息检索 / 多语言RAG
关键词: 多语言RAG, 英语中心偏差, 语言偏好, 查询融合, 去偏校准

一句话总结¶

本文发现多语言 RAG 系统中"英语偏好"主要是评估基准中结构性先验（gold 证据集中于英语、文化先验）的伪影而非模型固有偏差，提出去偏语言偏好指标 DeLP 揭示检索器实际偏好单语对齐，并基于此设计 DELTA 查询增强框架，在多语言 RAG 上一致超越英语枢轴策略。

研究背景与动机¶

领域现状：多语言 RAG（mRAG）通过从多语言知识源检索证据来增强 LLM 的跨语言回答能力。英语枢轴（将非英语查询翻译为英语后再检索）被广泛认为是一种有效的启发式策略。

现有痛点：(1) 学界普遍将英语枢轴的有效性归因于 LLM 的"英语中心"能力——更强的英语推理和更少的翻译噪声；(2) 但本文发现这种"英语偏好"主要是由评估基准中的结构性偏差驱动的——MKQA 等基准中 73.3% 的 gold 证据存在于英语 Wikipedia 中，其他语言仅 0.5-1.4%；(3) 现有度量方法（如 MLRS）无法区分模型的真实偏好和数据分布强加的外部必要性。

核心矛盾：英语枢轴看起来有效不是因为模型偏好英语，而是因为正确答案几乎只存在于英语资源中——这是数据不平衡而非模型偏差。去除这些结构性混淆因素后，模型的真实偏好是什么？

本文目标：(1) 揭示 mRAG 中"英语偏好"的真实来源；(2) 设计去偏指标 DeLP 测量模型的固有语言偏好；(3) 基于去偏后的洞察设计更好的 mRAG 策略。

切入角度：识别三类结构性先验——曝光先验（高资源语料库主导检索结果）、gold 可用性先验（正确证据集中于英语）、文化先验（地域性主题与特定语言绑定），然后通过岭回归从原始偏好信号中回归掉这些先验。

核心 idea：去偏后发现检索器的真实偏好是单语对齐（查询和文档语言匹配时检索效果最好），而非英语偏好——因此应该将查询增强为多语言锚点以利用单语对齐，而非盲目翻译为英语。

方法详解¶

整体框架¶

DeLP 指标：收集原始语言偏好信号 → 构建先验特征向量（曝光/gold 可用性/文化/语料库大小/段落长度）→ 岭回归拟合先验 → 残差即为去偏后的真实偏好。DELTA 框架：给定查询 → 用 DeLP 信号识别模型偏好的语言集合 → 将查询翻译为偏好语言 → 融合原始查询和翻译查询进行检索 → 生成回答。

关键设计¶

DeLP 去偏语言偏好指标:
- 功能：从结构性混淆因素中分离模型的固有语言偏好
- 核心思路：将原始偏好分解为先验解释部分（曝光、gold 可用性、文化先验）和残差（真实偏好）。用岭回归 \(s_e(L_q, L_d) \approx w^\top \phi(L_q, L_d) + \epsilon\) 拟合先验，残差 \(\epsilon\) 即为 DeLP 得分
- 设计动机：现有度量将数据分布效应和模型偏好混为一谈，DeLP 通过显式回归掉已知的结构性因素来揭示模型的真实偏好
单语对齐发现:
- 功能：揭示检索器的固有语言偏好模式
- 核心思路：应用 DeLP 后发现：英语偏好大幅缩减（从表面上的主导地位变为中等水平），而单语对齐信号增强——当查询语言和文档语言匹配时（如日语查询检索日语 Wikipedia），检索效果最好
- 设计动机：如果模型真正偏好的是单语对齐而非英语，那么英语枢轴策略只是间接利用了英语资源的丰富性，而非最优策略
DELTA 查询增强框架:
- 功能：利用去偏后的语言偏好指导查询增强
- 核心思路：根据 DeLP 信号动态识别模型对给定查询最偏好的语言集合，将查询翻译为这些偏好语言，然后将原始查询和翻译查询融合进行检索。保留原始脚本的上下文同时最大化单语对齐的收益
- 设计动机：不盲目翻译为英语，而是根据模型的真实偏好选择最有利的语言——轻量级（无需修改检索器或语料库）且动态适应

损失函数 / 训练策略¶

不涉及模型训练。使用现有检索器（BGE-m3）和生成器（Qwen3-235B、DeepSeek-v3.1、Gemini-2.5-Flash）进行评估。

实验关键数据¶

主实验¶

多语言 RAG 端到端准确率（部分语言）

方法	ko	zh	ja	ar	平均
基础（原始语言查询）	低	低	低	低	低
英语枢轴	中	中	中	中	中
DELTA	高	高	高	高	最高

消融实验¶

结构性先验对偏好度量的影响

指标	英语偏好	单语对齐信号
MLRS（原始）	强	弱
DeLP（去偏后）	弱	强

关键发现¶

英语 Wikipedia 覆盖 73.3% 的 gold 证据，其他语言仅 0.5-1.4%——英语枢轴的"有效性"主要来自这种极端不平衡
去偏后英语偏好大幅缩减，单语对齐成为主导偏好——检索器在查询和文档语言匹配时表现最佳
DELTA 一致超越英语枢轴——证明利用模型真实偏好比遵循有偏的环境信号更有效
文化先验也是一个重要混淆因素——地域性问题的正确答案更可能存在于对应语言的 Wikipedia 中

亮点与洞察¶

对"英语偏好神话"的系统性解构是本文的核心贡献——揭示了评估方法论中的重大盲点
DeLP 指标的设计思路（回归掉已知先验看残差）可迁移到任何涉及混淆因素的评估场景
DELTA 极其轻量——仅在查询层面操作，无需修改模型、检索器或语料库

局限与展望¶

DeLP 的去偏效果依赖于先验因素的完整性——如果有未识别的混淆因素仍会影响结论
仅在 MKQA 基准上验证，其他多语言 QA 基准的结论可能不同
DELTA 的翻译步骤引入额外延迟
未探索检索器本身的训练偏差对语言偏好的影响

评分¶

新颖性: ⭐⭐⭐⭐⭐ 对"英语偏好神话"的解构和去偏语言偏好指标是重要贡献
实验充分度: ⭐⭐⭐⭐ 三个强 LLM 验证，但仅在 MKQA 一个基准上
写作质量: ⭐⭐⭐⭐⭐ 分析逻辑严密，结构性偏差的识别和论证令人信服
价值: ⭐⭐⭐⭐ 改变了对多语言 RAG 的理解，DeLP 和 DELTA 都有直接实用价值