跳转至

RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models

会议: ACL 2025
arXiv: 2412.02830
代码: https://github.com/fatebreaker/RARE
领域: NLP理解
关键词: 检索增强推理, MCTS, 事实性评分, 医学问答, 常识推理

一句话总结

提出 RARE,在 rStar 的 MCTS 推理框架中引入两个检索增强动作(A6: 基于原始问题生成搜索查询并检索,A7: 对子问题进行检索并重新回答),并用检索增强的事实性评分器(RAFS)替代原始判别器,使 LLaMA 3.1 在医学和常识推理任务上达到甚至超越 GPT-4o 的水平。

研究背景与动机

  1. 领域现状:LLM 推理增强方法包括 CoT、Self-Consistency、MCTS 搜索(rStar)。对于知识密集型任务(如医学QA),还需要 RAG 方法(如 MedRAG、i-MedRAG)引入外部知识。但推理增强和检索增强通常是分开设计的。
  2. 现有痛点
  3. 单纯的推理增强(rStar/MCTS)缺乏外部知识,在知识密集型问题上受限于预训练知识
  4. 单纯的 RAG 方法(MedRAG)仅做一次检索,无法在多步推理的每个步骤中动态获取信息
  5. i-MedRAG 虽然支持迭代检索,但缺乏系统的推理框架和路径选择机制
  6. 核心矛盾:知识密集型任务需要结构化多步推理 + 动态检索的结合,现有方法只做到二者之一。
  7. 切入角度:在 rStar 的 MCTS 动作空间中新增两个检索增强动作,并用检索增强的事实性评分器替代答案验证,实现推理与检索的深度融合。
  8. 核心 idea 一句话:将检索增强融入 MCTS 的动作空间和评分机制,让推理树的每个分支都可以动态获取外部知识并验证事实性。

方法详解

整体框架

阶段1 - 检索增强生成器:基于 MCTS 探索推理路径,在 rStar 原有 5 个动作(A1-A5)基础上新增 A6(问题级检索)和 A7(子问题级检索),生成多条候选推理路径
阶段2 - 检索增强事实性评分器 (RAFS):对每条推理路径进行事实性验证,选择得分最高的路径作为最终答案

关键设计

  1. A6: 搜索查询生成 + 信息检索:
  2. LLM 基于原始问题生成多个搜索查询
  3. 用 ColBERT 从语料库(PubMed、StatPearls、医学教科书、Wikipedia)检索相关文档
  4. 将检索到的信息与原始问题结合,生成最终答案
  5. 适用于需要外部知识补充的单步知识型问题

  6. A7: 子问题检索 + 重新回答:

  7. 对 A3 生成的子问题进行独立检索
  8. 基于检索到的上下文信息重新回答每个子问题
  9. 最终子问题是原始问题的改写,其答案即为原始问题的答案
  10. 适用于需要迭代检索的复合型问题

  11. 检索增强事实性评分器 (RAFS):

  12. 步骤1:将推理路径拆分为独立陈述
  13. 步骤2:LLM 为每个陈述生成检索查询
  14. 步骤3:检索相关文档
  15. 步骤4:将每个陈述与检索证据对比,标记为 Supported/Not Supported
  16. 事实性得分:Supported 陈述的比例 → 选择最高分路径

实验关键数据

主实验(医学推理 Accuracy)

模型 方法 MedQA MedMCQA MMLU-Med Avg
LLaMA3.1 8B CoT 61.51 55.15 71.63 62.76
LLaMA3.1 8B rStar 70.40 62.13 79.16 70.56
LLaMA3.1 8B RARE 75.57 64.32 81.63 73.84
LLaMA3.1 70B RARE 87.43 75.18 90.91 84.51
GPT-4o CoT 85.55 74.70 90.45 83.57

RARE + LLaMA3.1-70B 在 MedQA (87.43) 和 MMLU-Med (90.91) 上超越 GPT-4o

常识推理对比

模型 方法 StrategyQA CommonsenseQA PIQA Avg
LLaMA3.1 8B rStar 71.57 76.58 79.65 75.93
LLaMA3.1 8B RARE 78.02 80.84 82.52 80.46

关键发现

  • RARE 在多步推理任务上收益最大:StrategyQA 上比 CoT 提升 10.19%,远超 CommonsenseQA 的 7.22%,说明检索增强在多跳推理中更有价值
  • RAFS 比原始 rStar 的判别器有效——事实性评分比单纯的一致性投票更可靠
  • A6 和 A7 互补:A6 适合单步知识查询,A7 适合复合型推理

亮点与洞察

  • 检索与推理的深度融合:不是简单地"先检索再推理",而是将检索作为 MCTS 的原子动作,让搜索树自然探索"何时检索、检索什么"
  • RAFS 的事实验证方法可独立使用——将推理路径拆分为陈述→逐条验证→比例评分的流程适用于任何需要事实性评估的场景
  • 开源 LLaMA 打败 GPT-4o 的结果展示了推理框架设计的重要性

局限性 / 可改进方向

  • MCTS 的计算开销仍较大(多次展开+检索)
  • 检索语料库需要预构建,新领域需要适配
  • RAFS 使用 LLM 判断 Supported/Not Supported 可能引入判断偏差
  • 仅在选择题上验证,开放式生成任务效果未知

相关工作与启发

  • vs rStar:rStar 提供推理框架但缺乏外部知识;RARE 平均比 rStar 高 3.28%(医学)
  • vs i-MedRAG:i-MedRAG 有迭代检索但缺乏系统化推理框架;RARE 平均比 i-MedRAG 高 2.63%
  • vs MedRAG:MedRAG 单次检索不足以应对复合问题;RARE 大幅领先

评分

  • 新颖性: ⭐⭐⭐⭐ 将 RAG 融入 MCTS 动作空间的设计有创新性,RAFS 事实性评分思路清晰
  • 实验充分度: ⭐⭐⭐⭐⭐ 3个医学+3个常识基准、3个规模的LLaMA、与GPT-4o对比、详细消融
  • 写作质量: ⭐⭐⭐⭐ 流程图清晰,案例分析详细,动机论述有力
  • 价值: ⭐⭐⭐⭐⭐ 开源模型超越GPT-4o的实用方案,对医学AI有直接应用价值