跳转至

Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training

会议: ICLR 2026 Oral
arXiv: 2511.07328
代码: 有
领域: LLM / 检索增强生成
关键词: multi-step retrieval, value-based RL, embedder training, long context, RAG

一句话总结

将多步检索建模为 MDP,用基于值的 RL(soft Q-learning)微调 embedder 而非 LLM,Q 函数设计为状态嵌入和动作嵌入的内积(理论证明为万能近似器),结合 RoPE 相对位置编码实现时序推理,在单卡 A100 上训练 12 小时,4K 训练泛化到 1M+ token 上下文,RULER 基准达到近乎完美的 NIAH 性能。

研究背景与动机

  1. 领域现状:长上下文多步检索是 RAG 的核心挑战。现有方法分两类:(a) 微调 LLM 生成搜索查询(Search-R1, R1-Searcher),需要 8×A100 且只能用开源 LLM;(b) 微调检索器(Beam-Retriever),用监督学习但泛化性差。

  2. 现有痛点:(a) LLM 微调方法计算成本极高且不能用于闭源 LLM;(b) Beam-Retriever 用 SFT 训练,在 OOD 数据和超长上下文上泛化差;(c) 现有检索器无法做时序推理(如"事件 X 之前发生了什么?")。

  3. 核心矛盾:多步检索需要根据已检索内容动态决策下一步检索什么,本质上是序贯决策问题,但现有方法要么用昂贵的 LLM 做决策,要么用简单的 SFT 缺乏探索能力。

  4. 本文要解决什么? 设计一个轻量、通用、可泛化的多步检索 agent:(a) 只改 embedder 不改 LLM;(b) 用 RL 而非 SFT 训练;(c) 支持时序推理;(d) 短训练长泛化。

  5. 切入角度:将 Q 函数设计为嵌入空间的内积——这既符合检索的 similarity search 范式,又被证明是万能近似器,且支持高效推理(无需对每个候选做 transformer forward pass)。

  6. 核心idea一句话:用 RL 微调 embedder 学习"在检索空间中做序贯决策",Q 函数为内积形式保证计算效率和理论正确性。

方法详解

整体框架

输入是长文档(预切分为 chunks)+ 查询,输出是分步检索的支持事实集合。MDP 形式化:状态 = 已检索 chunks 的有序列表;动作 = 选择下一个 chunk;奖励 = 稀疏终端奖励(所有支持事实都找到得 1 分)。用 soft Q-learning + PQN 训练 embedder。

关键设计

  1. Q 函数即内积
  2. 做什么:将 Q 函数参数化为两个 embedder 的内积
  3. 核心思路:\(Q_\theta(s, a_i) = \langle E_s(s; \theta_1), E_a(a_i, i; \theta_2) \rangle\),状态 embedder 编码已检索内容,动作 embedder 编码候选 chunk 及其文档位置
  4. 设计动机:(a) Theorem 1 证明此形式是万能近似器(Stone-Weierstrass 定理);(b) 推理时只需一次 dot product 而非 transformer forward pass,比 Beam-Retriever 快数量级

  5. RoPE 相对位置编码实现时序推理

  6. 做什么:用旋转位置编码表达候选 chunk 相对于已检索事实的位置关系
  7. 核心思路:定义相对位置映射 \(\rho_t(i) = j \cdot \delta + \ell \cdot \frac{i - b_j}{b_{j+1} - b_j}\),已检索事实将文档划分为区间,每个候选 chunk 获得相对于最近区间的位置编码。动作 embedder 使用 \(E_a(a_i, \rho_t(i); \theta_2)\)
  8. 设计动机:绝对位置编码在长上下文外推时失败,相对位置编码使模型关注"候选在已知事实前/后/之间"的关系,实现时序推理且泛化到任意长度

  9. PQN + Soft Q-Learning

  10. 做什么:无 replay buffer 的在线值基 RL 训练
  11. 核心思路:使用 PQN (Periodic Q-Network) 避免 replay buffer 需要重新嵌入所有 chunks 的开销;加入 soft value function \(V_{\theta'}(s_t) = \alpha \log \sum_{a} \exp(Q_{\theta'}(s_t, a)/\alpha)\) 和 target network;用 \(\lambda\)-return 替代单步 TD target 减少偏差
  12. 设计动机:检索场景中 chunk 数量可达数千,replay buffer 每次采样都需重计算所有 chunk 的 Q 值,PQN 的在线特性避免了这一瓶头

损失函数 / 训练策略

\(\mathcal{L}_Q = \mathbb{E}[(Q_\theta(s_t, a_t) - G_t^\lambda)^2]\),AdamW 优化器,lr=1.5e-5,温度 \(\alpha=0.05\) 退火到 0,\(\lambda=0.5\),单卡 A100-80GB 训练 <12 小时。

实验关键数据

主实验 (RULER NIAH)

上下文长度 Q-RAG NIAH Avg LongRoPe2-8B Beam-Retriever
4K 100 99.7 98.5
16K 100 98.8 95.3
32K 100 98.9
128K 100 96.7
1M 99.7

Open-Domain QA (HotPotQA → Musique OOD)

方法 HotPotQA Ans F1 Musique Ans F1 (OOD) 平均 训练资源
Q-RAG 0.76 0.52 0.64 1×A100
Beam-Retriever 0.77 0.40 0.59
Search-R1 0.65 0.51 0.58 8×A100

消融实验

配置 关键发现
无 Soft-Q 性能下降,探索不足
无 Target Network 训练不稳定
SFT 替代 RL 短上下文可以但长上下文泛化失败
无微调 性能显著下降

关键发现

  • 4K 训练→1M 泛化:NIAH 性能从 4K 完美保持到 1M(2500× 外推),归功于相对位置编码
  • RL > SFT:在相同监督信号下 RL 训练显著优于 SFT,特别是 OOD 和超长上下文
  • QA3(最难子任务):需要 3+ 事实 + 时序推理,Q-RAG 几乎无退化,Beam-Retriever 完全失败
  • 效率对比:推理时 dot product vs transformer forward pass,Q-RAG 在长上下文下速度优势巨大

亮点与洞察

  • Embedder-only 的范式转变:不动 LLM 只改 embedder,使方法可适配任意 LLM(包括闭源),训练成本降 8×
  • Q 函数即检索:将 RL 的 Q 函数和检索的 similarity score 统一为内积形式,同时满足理论保证和计算效率
  • 与 LoongRL 形成互补:LoongRL 教会 LLM 内部推理模式(plan-retrieve-reason),Q-RAG 教会 embedder 外部检索策略,两者可结合使用

局限性 / 可改进方向

  • 仅用支持事实监督:未探索用 LLM 回答质量作为奖励信号(retriever-generator 联合优化)
  • 需要预切分 chunks:依赖预定义的文档分段策略
  • 需要支持事实标签:训练数据需要标注哪些 chunks 是支持事实

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将 RL Q-function 与检索相似度统一为内积,RoPE 相对位置用于时序检索均属首创
  • 实验充分度: ⭐⭐⭐⭐⭐ RULER/BabiLong/Open-QA 全面覆盖,4K→10M 泛化惊人
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,但符号较多需要仔细阅读
  • 价值: ⭐⭐⭐⭐⭐ 轻量可部署,适配任意 LLM,有望成为 RAG 标准检索组件