RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models¶
会议: ACL 2025
arXiv: 2412.02830
代码: https://github.com/fatebreaker/RARE
领域: NLP理解
关键词: 检索增强推理, MCTS, 事实性评分, 医学问答, 常识推理
一句话总结¶
提出 RARE,在 rStar 的 MCTS 推理框架中引入两个检索增强动作(A6: 基于原始问题生成搜索查询并检索,A7: 对子问题进行检索并重新回答),并用检索增强的事实性评分器(RAFS)替代原始判别器,使 LLaMA 3.1 在医学和常识推理任务上达到甚至超越 GPT-4o 的水平。
研究背景与动机¶
- 领域现状:LLM 推理增强方法包括 CoT、Self-Consistency、MCTS 搜索(rStar)。对于知识密集型任务(如医学QA),还需要 RAG 方法(如 MedRAG、i-MedRAG)引入外部知识。但推理增强和检索增强通常是分开设计的。
- 现有痛点:
- 单纯的推理增强(rStar/MCTS)缺乏外部知识,在知识密集型问题上受限于预训练知识
- 单纯的 RAG 方法(MedRAG)仅做一次检索,无法在多步推理的每个步骤中动态获取信息
- i-MedRAG 虽然支持迭代检索,但缺乏系统的推理框架和路径选择机制
- 核心矛盾:知识密集型任务需要结构化多步推理 + 动态检索的结合,现有方法只做到二者之一。
- 切入角度:在 rStar 的 MCTS 动作空间中新增两个检索增强动作,并用检索增强的事实性评分器替代答案验证,实现推理与检索的深度融合。
- 核心 idea 一句话:将检索增强融入 MCTS 的动作空间和评分机制,让推理树的每个分支都可以动态获取外部知识并验证事实性。
方法详解¶
整体框架¶
阶段1 - 检索增强生成器:基于 MCTS 探索推理路径,在 rStar 原有 5 个动作(A1-A5)基础上新增 A6(问题级检索)和 A7(子问题级检索),生成多条候选推理路径
→ 阶段2 - 检索增强事实性评分器 (RAFS):对每条推理路径进行事实性验证,选择得分最高的路径作为最终答案
关键设计¶
- A6: 搜索查询生成 + 信息检索:
- LLM 基于原始问题生成多个搜索查询
- 用 ColBERT 从语料库(PubMed、StatPearls、医学教科书、Wikipedia)检索相关文档
- 将检索到的信息与原始问题结合,生成最终答案
-
适用于需要外部知识补充的单步知识型问题
-
A7: 子问题检索 + 重新回答:
- 对 A3 生成的子问题进行独立检索
- 基于检索到的上下文信息重新回答每个子问题
- 最终子问题是原始问题的改写,其答案即为原始问题的答案
-
适用于需要迭代检索的复合型问题
-
检索增强事实性评分器 (RAFS):
- 步骤1:将推理路径拆分为独立陈述
- 步骤2:LLM 为每个陈述生成检索查询
- 步骤3:检索相关文档
- 步骤4:将每个陈述与检索证据对比,标记为 Supported/Not Supported
- 事实性得分:Supported 陈述的比例 → 选择最高分路径
实验关键数据¶
主实验(医学推理 Accuracy)¶
| 模型 | 方法 | MedQA | MedMCQA | MMLU-Med | Avg |
|---|---|---|---|---|---|
| LLaMA3.1 8B | CoT | 61.51 | 55.15 | 71.63 | 62.76 |
| LLaMA3.1 8B | rStar | 70.40 | 62.13 | 79.16 | 70.56 |
| LLaMA3.1 8B | RARE | 75.57 | 64.32 | 81.63 | 73.84 |
| LLaMA3.1 70B | RARE | 87.43 | 75.18 | 90.91 | 84.51 |
| GPT-4o | CoT | 85.55 | 74.70 | 90.45 | 83.57 |
RARE + LLaMA3.1-70B 在 MedQA (87.43) 和 MMLU-Med (90.91) 上超越 GPT-4o。
常识推理对比¶
| 模型 | 方法 | StrategyQA | CommonsenseQA | PIQA | Avg |
|---|---|---|---|---|---|
| LLaMA3.1 8B | rStar | 71.57 | 76.58 | 79.65 | 75.93 |
| LLaMA3.1 8B | RARE | 78.02 | 80.84 | 82.52 | 80.46 |
关键发现¶
- RARE 在多步推理任务上收益最大:StrategyQA 上比 CoT 提升 10.19%,远超 CommonsenseQA 的 7.22%,说明检索增强在多跳推理中更有价值
- RAFS 比原始 rStar 的判别器有效——事实性评分比单纯的一致性投票更可靠
- A6 和 A7 互补:A6 适合单步知识查询,A7 适合复合型推理
亮点与洞察¶
- 检索与推理的深度融合:不是简单地"先检索再推理",而是将检索作为 MCTS 的原子动作,让搜索树自然探索"何时检索、检索什么"
- RAFS 的事实验证方法可独立使用——将推理路径拆分为陈述→逐条验证→比例评分的流程适用于任何需要事实性评估的场景
- 开源 LLaMA 打败 GPT-4o 的结果展示了推理框架设计的重要性
局限性 / 可改进方向¶
- MCTS 的计算开销仍较大(多次展开+检索)
- 检索语料库需要预构建,新领域需要适配
- RAFS 使用 LLM 判断 Supported/Not Supported 可能引入判断偏差
- 仅在选择题上验证,开放式生成任务效果未知
相关工作与启发¶
- vs rStar:rStar 提供推理框架但缺乏外部知识;RARE 平均比 rStar 高 3.28%(医学)
- vs i-MedRAG:i-MedRAG 有迭代检索但缺乏系统化推理框架;RARE 平均比 i-MedRAG 高 2.63%
- vs MedRAG:MedRAG 单次检索不足以应对复合问题;RARE 大幅领先
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 RAG 融入 MCTS 动作空间的设计有创新性,RAFS 事实性评分思路清晰
- 实验充分度: ⭐⭐⭐⭐⭐ 3个医学+3个常识基准、3个规模的LLaMA、与GPT-4o对比、详细消融
- 写作质量: ⭐⭐⭐⭐ 流程图清晰,案例分析详细,动机论述有力
- 价值: ⭐⭐⭐⭐⭐ 开源模型超越GPT-4o的实用方案,对医学AI有直接应用价值