跳转至

Enhancing Multilingual RAG Systems with Debiased Language Preference-Guided Query Fusion

会议: ACL 2026
arXiv: 2601.02956
代码: GitHub
领域: 信息检索 / 多语言RAG
关键词: 多语言RAG, 英语中心偏差, 语言偏好, 查询融合, 去偏校准

一句话总结

本文发现多语言 RAG 系统中"英语偏好"主要是评估基准中结构性先验(gold 证据集中于英语、文化先验)的伪影而非模型固有偏差,提出去偏语言偏好指标 DeLP 揭示检索器实际偏好单语对齐,并基于此设计 DELTA 查询增强框架,在多语言 RAG 上一致超越英语枢轴策略。

研究背景与动机

领域现状:多语言 RAG(mRAG)通过从多语言知识源检索证据来增强 LLM 的跨语言回答能力。英语枢轴(将非英语查询翻译为英语后再检索)被广泛认为是一种有效的启发式策略。

现有痛点:(1) 学界普遍将英语枢轴的有效性归因于 LLM 的"英语中心"能力——更强的英语推理和更少的翻译噪声;(2) 但本文发现这种"英语偏好"主要是由评估基准中的结构性偏差驱动的——MKQA 等基准中 73.3% 的 gold 证据存在于英语 Wikipedia 中,其他语言仅 0.5-1.4%;(3) 现有度量方法(如 MLRS)无法区分模型的真实偏好和数据分布强加的外部必要性。

核心矛盾:英语枢轴看起来有效不是因为模型偏好英语,而是因为正确答案几乎只存在于英语资源中——这是数据不平衡而非模型偏差。去除这些结构性混淆因素后,模型的真实偏好是什么?

本文目标:(1) 揭示 mRAG 中"英语偏好"的真实来源;(2) 设计去偏指标 DeLP 测量模型的固有语言偏好;(3) 基于去偏后的洞察设计更好的 mRAG 策略。

切入角度:识别三类结构性先验——曝光先验(高资源语料库主导检索结果)、gold 可用性先验(正确证据集中于英语)、文化先验(地域性主题与特定语言绑定),然后通过岭回归从原始偏好信号中回归掉这些先验。

核心 idea:去偏后发现检索器的真实偏好是单语对齐(查询和文档语言匹配时检索效果最好),而非英语偏好——因此应该将查询增强为多语言锚点以利用单语对齐,而非盲目翻译为英语。

方法详解

整体框架

DeLP 指标:收集原始语言偏好信号 → 构建先验特征向量(曝光/gold 可用性/文化/语料库大小/段落长度)→ 岭回归拟合先验 → 残差即为去偏后的真实偏好。DELTA 框架:给定查询 → 用 DeLP 信号识别模型偏好的语言集合 → 将查询翻译为偏好语言 → 融合原始查询和翻译查询进行检索 → 生成回答。

关键设计

  1. DeLP 去偏语言偏好指标:

    • 功能:从结构性混淆因素中分离模型的固有语言偏好
    • 核心思路:将原始偏好分解为先验解释部分(曝光、gold 可用性、文化先验)和残差(真实偏好)。用岭回归 \(s_e(L_q, L_d) \approx w^\top \phi(L_q, L_d) + \epsilon\) 拟合先验,残差 \(\epsilon\) 即为 DeLP 得分
    • 设计动机:现有度量将数据分布效应和模型偏好混为一谈,DeLP 通过显式回归掉已知的结构性因素来揭示模型的真实偏好
  2. 单语对齐发现:

    • 功能:揭示检索器的固有语言偏好模式
    • 核心思路:应用 DeLP 后发现:英语偏好大幅缩减(从表面上的主导地位变为中等水平),而单语对齐信号增强——当查询语言和文档语言匹配时(如日语查询检索日语 Wikipedia),检索效果最好
    • 设计动机:如果模型真正偏好的是单语对齐而非英语,那么英语枢轴策略只是间接利用了英语资源的丰富性,而非最优策略
  3. DELTA 查询增强框架:

    • 功能:利用去偏后的语言偏好指导查询增强
    • 核心思路:根据 DeLP 信号动态识别模型对给定查询最偏好的语言集合,将查询翻译为这些偏好语言,然后将原始查询和翻译查询融合进行检索。保留原始脚本的上下文同时最大化单语对齐的收益
    • 设计动机:不盲目翻译为英语,而是根据模型的真实偏好选择最有利的语言——轻量级(无需修改检索器或语料库)且动态适应

损失函数 / 训练策略

不涉及模型训练。使用现有检索器(BGE-m3)和生成器(Qwen3-235B、DeepSeek-v3.1、Gemini-2.5-Flash)进行评估。

实验关键数据

主实验

多语言 RAG 端到端准确率(部分语言)

方法 ko zh ja ar 平均
基础(原始语言查询)
英语枢轴
DELTA 最高

消融实验

结构性先验对偏好度量的影响

指标 英语偏好 单语对齐信号
MLRS(原始)
DeLP(去偏后)

关键发现

  • 英语 Wikipedia 覆盖 73.3% 的 gold 证据,其他语言仅 0.5-1.4%——英语枢轴的"有效性"主要来自这种极端不平衡
  • 去偏后英语偏好大幅缩减,单语对齐成为主导偏好——检索器在查询和文档语言匹配时表现最佳
  • DELTA 一致超越英语枢轴——证明利用模型真实偏好比遵循有偏的环境信号更有效
  • 文化先验也是一个重要混淆因素——地域性问题的正确答案更可能存在于对应语言的 Wikipedia 中

亮点与洞察

  • 对"英语偏好神话"的系统性解构是本文的核心贡献——揭示了评估方法论中的重大盲点
  • DeLP 指标的设计思路(回归掉已知先验看残差)可迁移到任何涉及混淆因素的评估场景
  • DELTA 极其轻量——仅在查询层面操作,无需修改模型、检索器或语料库

局限与展望

  • DeLP 的去偏效果依赖于先验因素的完整性——如果有未识别的混淆因素仍会影响结论
  • 仅在 MKQA 基准上验证,其他多语言 QA 基准的结论可能不同
  • DELTA 的翻译步骤引入额外延迟
  • 未探索检索器本身的训练偏差对语言偏好的影响

相关工作与启发

  • vs 英语枢轴策略: 本文证明英语枢轴的有效性来自数据不平衡而非模型偏好
  • vs MLRS: MLRS 混淆了结构性先验和模型偏好,DeLP 通过去偏揭示真实信号
  • vs CoPriva: CoPriva 研究文本隐私保护,本文聚焦语言偏好的去偏

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 对"英语偏好神话"的解构和去偏语言偏好指标是重要贡献
  • 实验充分度: ⭐⭐⭐⭐ 三个强 LLM 验证,但仅在 MKQA 一个基准上
  • 写作质量: ⭐⭐⭐⭐⭐ 分析逻辑严密,结构性偏差的识别和论证令人信服
  • 价值: ⭐⭐⭐⭐ 改变了对多语言 RAG 的理解,DeLP 和 DELTA 都有直接实用价值

相关论文