跳转至

Shifting from Ranking to Set Selection for Retrieval Augmented Generation

会议: ACL 2025
arXiv: 2507.06838
代码: https://github.com/LGAI-Research/SetR
领域: 文本生成
关键词: RAG, 集合选择, 多跳问答, 段落检索, CoT推理

一句话总结

提出从"逐个排序"到"集合选择"的 RAG 检索范式转换——SetR 通过 CoT 推理显式识别查询的信息需求,然后选择一组能共同满足这些需求的段落(而非逐个评分最相关的),在多跳 RAG 基准上超越 GPT-4o 级别的重排器。

研究背景与动机

  1. 领域现状:RAG 中的检索器通常先召回大量候选段落,然后用重排器(reranker)按相关性逐个打分排序,选 top-K 段落作为上下文。
  2. 现有痛点:逐个排序只考虑每个段落与查询的单独相关性,忽略了段落之间的信息互补性。对多跳问题,答案需要多个段落的信息拼接——但 top-K 可能选中多个高度重叠的段落,遗漏关键信息片段。
  3. 核心矛盾:"最相关的 K 个段落"不等于"最有用的 K 个段落组合"——集合最优 ≠ 逐个最优之和。
  4. 本文要解决什么? 从集合层面优化 RAG 的段落选择,使选中的段落集合能全面覆盖查询的信息需求。
  5. 切入角度:先用 CoT 推理将查询分解为多个信息需求子点,然后为每个子点选择最匹配的段落,组成覆盖所有子点的最小最优集合。
  6. 核心idea一句话:先分解查询的信息需求,再选段落集合满足所有需求。

方法详解

整体框架

两阶段流程:(1) 需求识别——用 CoT 推理将查询分解为多个信息需求子点(如多跳问题的每一跳);(2) 集合选择——为每个子点从候选段落中选择最匹配的段落,去重并组成最终段落集合。

关键设计

  1. 信息需求分解(Information Requirement Identification):
  2. 做什么:将复杂查询分解为原子级信息需求
  3. 核心思路:提示 LLM 用 CoT 推理分析查询需要哪几类信息才能回答。如"谁是X大学2020年毕业的诺贝尔奖得主?"分解为:(a) X大学的毕业生名单;(b) 诺贝尔奖得主名单;(c) 2020年相关信息
  4. 设计动机:多跳问题的信息需求是多维的,单一相关性打分无法区分段落对不同维度的贡献

  5. 集合级段落选择(Set-wise Passage Selection):

  6. 做什么:选择一组能共同覆盖所有信息需求的段落
  7. 核心思路:对每个信息需求子点,找到候选中最匹配的段落并标记该子点已被覆盖。最终集合是所有子点的最佳覆盖
  8. 设计动机:避免信息冗余(多个段落覆盖同一子点)和信息缺失(某些子点没有段落覆盖)

  9. 与传统重排的对比:

  10. 传统 rerank:给每个段落独立打分,选 top-K → 可能 K 个段落全部覆盖同一信息维度
  11. SetR:先确定需要哪些信息维度,每个维度选一个最佳段落 → 确保覆盖全面

损失函数 / 训练策略

  • 无需训练——纯推理时方法
  • 使用开源 LLM (如 Llama-3.1-8B) 做 CoT 分解和选择
  • 也可用闭源模型(GPT-4o)作为基线对比

实验关键数据

主实验(多跳 QA 基准)

方法 正确率 检索质量 说明
BM25 top-K 基线 基线 召回但不优化
GPT-4o Rerank 中高 逐个评分
开源 Reranker 传统 rerank
SetR (Llama-3.1-8B) 最高 最高 集合选择

消融实验

配置 效果 说明
w/o CoT 分解 退化到逐个排序水平 需求分解是核心
增加集合大小 K 收益递减 覆盖了主要需求后额外段落贡献减小
简单查询 vs 多跳 简单查询差异小 SetR 的优势在复杂查询上最明显

关键发现

  • SetR 用 Llama-3.1-8B 就能超越 GPT-4o 级别的 reranker——集合选择比强力逐个排序更有效
  • 在多跳问答上优势最大——因为多跳问题的信息需求最多样
  • 集合选择自然避免了信息冗余——减少了上下文窗口的浪费
  • CoT 需求分解质量直接决定最终效果——错误的分解会导致选错段落

亮点与洞察

  • 从"排序"到"集合选择"的范式转换是核心贡献——这是对 RAG 检索阶段的根本性重新思考。传统 rerank 是"给每个段落打分",SetR 是"给每组段落打分"。
  • CoT 分解信息需求很自然——多跳推理本身就是多步骤的,将查询分解为信息子点与推理步骤一一对应。
  • 开源小模型(8B)超越闭源大模型——方法设计比模型规模更重要。
  • 该思想可迁移到长文本摘要(选择覆盖多方面的source chunks)等其他RAG场景。

局限性 / 可改进方向

  • CoT 分解可能不完整——遗漏某些信息需求子点会导致对应段落缺失
  • 对简单单跳查询改进有限——这些查询的信息需求单一
  • 候选段落池的质量仍依赖初始检索器——垃圾进垃圾出
  • 未考虑段落间的矛盾——选中的段落可能包含冲突信息
  • 仅在英语 QA 基准验证

相关工作与启发

  • vs 传统 Rerank(Cohere、BGE-Reranker): 逐个打分忽略段落间互补性;SetR 从集合层面优化
  • vs GainRAG: GainRAG 衡量段落对 LLM 的"增益",也是超越相关性的思路,但仍是逐个评分;SetR 从集合层面进一步推进
  • vs FaithfulRAG: FaithfulRAG 解决知识冲突,SetR 解决信息遗漏——不同角度的 RAG 改进
  • 集合选择的思想在信息检索领域有悠久历史(如 MMR 多样性排序),本文将其与 CoT 推理结合

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "排序→集合选择"的范式转换,CoT需求分解新颖
  • 实验充分度: ⭐⭐⭐⭐ 多个多跳基准+消融+与GPT-4o对比
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法直觉好
  • 价值: ⭐⭐⭐⭐⭐ 对RAG检索阶段的根本性改进