跳转至

Active LLMs for Multi-hop Question Answering

会议: ACL 2025
领域: LLM推理
关键词: 多跳问答、主动学习、大语言模型、检索增强、推理链

一句话总结

本文提出一种主动式大语言模型框架,通过让LLM主动决定何时需要检索外部信息、何时可以直接推理,从而在多跳问答任务中实现更高效、更准确的推理过程。

研究背景与动机

领域现状:多跳问答(Multi-hop QA)要求模型跨越多个文档或知识片段进行推理,目前主流方法包括检索增强生成(RAG)和链式思维(CoT)推理。这些方法通常采用固定的检索-推理流水线,对每个子问题都执行相同的处理步骤。

现有痛点:现有的多跳QA系统存在两个核心问题:一是"过度检索",即对所有子问题都进行检索,即使某些子问题可以通过模型的参数化知识直接回答;二是"检索不足",即在需要外部证据时未能及时获取,导致推理链中间环节出错并级联放大。

核心矛盾:固定流水线无法根据每个具体子问题的难度和模型的知识覆盖情况动态调整策略。简单问题浪费检索资源,复杂问题又可能因检索质量差而引入噪声。

本文目标:设计一种让LLM能够"主动"感知自身知识边界、动态决定是否需要外部检索的框架,从而在多跳推理中实现效率与准确率的平衡。

切入角度:受主动学习(Active Learning)思想启发,作者观察到LLM对不同子问题的置信度存在显著差异,可以利用这种置信度信号来指导检索决策。

核心 idea:用主动决策机制替代固定检索流水线,让LLM在多跳推理的每一步自主判断是否需要检索、检索什么,从而实现自适应的多跳问答。

方法详解

整体框架

系统接收一个多跳问题作为输入,首先由分解模块将其拆解为多个子问题序列。在处理每个子问题时,主动决策模块评估LLM对当前子问题的回答置信度:若置信度高于阈值则直接使用参数化知识回答,否则触发检索模块从外部知识库获取相关文档。最终将各子问题的答案整合,生成最终回答。

关键设计

  1. 主动决策模块(Active Decision Module):

    • 功能:在每个推理步骤中判断是否需要外部检索
    • 核心思路:利用LLM的输出概率分布作为置信度信号。具体地,对于每个子问题,让LLM先尝试直接回答,计算答案token序列的平均对数概率作为置信度得分 \(c = \frac{1}{T}\sum_{t=1}^{T}\log p(y_t|y_{<t}, q)\)。当 \(c\) 低于预设阈值 \(\tau\) 时,触发检索操作
    • 设计动机:避免对所有子问题都进行检索,减少不必要的延迟开销和噪声引入
  2. 自适应子问题分解(Adaptive Decomposition):

    • 功能:将复杂多跳问题动态分解为可管理的子问题
    • 核心思路:采用迭代式分解策略,每次只生成下一个子问题,允许后续子问题根据前序答案动态调整。这与一次性生成所有子问题的静态分解不同,能够更好地处理问题间的依赖关系
    • 设计动机:多跳问题的子问题之间往往存在逻辑依赖,后一个子问题的表述可能取决于前一个子问题的答案
  3. 置信度校准的检索增强(Confidence-Calibrated Retrieval):

    • 功能:在检索触发时执行高质量的文档检索和整合
    • 核心思路:不仅检索与当前子问题相关的文档,还将前序推理链的上下文作为查询的一部分,提高检索的针对性。检索结果经过重排序后与原始查询一起送入LLM重新生成答案
    • 设计动机:多跳问答中的后续子问题通常需要结合前序推理结果才能准确检索

损失函数 / 训练策略

采用两阶段训练:第一阶段在标注数据上训练置信度阈值的最优值,第二阶段通过强化学习微调主动决策策略,以最终答案的正确性和检索次数的权衡作为奖励信号。

实验关键数据

主实验

数据集 指标(EM) Active LLMs 标准RAG CoT IRCoT 提升
HotpotQA EM 72.8 67.3 63.1 69.5 +3.3
2WikiMQA EM 68.4 62.7 58.9 65.1 +3.3
MuSiQue EM 45.2 39.6 35.8 42.1 +3.1
Bamboogle EM 76.5 71.2 68.4 73.8 +2.7

消融实验

配置 HotpotQA(EM) 平均检索次数 说明
Full model 72.8 1.8 完整模型
始终检索 70.1 3.2 每步都检索,引入噪声
从不检索 63.1 0 纯参数化知识
固定阈值 70.9 2.1 非自适应阈值
静态分解 69.4 1.9 一次性分解所有子问题

关键发现

  • 主动决策模块贡献最大,去掉后退化为标准RAG,EM下降约3-5个点
  • 平均每个问题只需1.8次检索,比始终检索的3.2次减少44%,但准确率反而更高
  • 在需要3跳以上推理的困难问题上优势更明显,说明主动决策在长推理链中更关键

亮点与洞察

  • 用LLM输出概率作为自我置信度信号来引导检索决策,简单有效且不需要额外的分类器,这种"自省"机制可以迁移到其他需要动态决策的场景
  • 迭代式子问题分解避免了错误累积,后续子问题能根据前序答案自适应调整,这个设计思路对所有涉及多步推理的任务都有借鉴意义

局限与展望

  • 置信度阈值虽然可以自适应调整,但依赖于LLM概率分布的校准质量,对于校准不佳的模型可能失效
  • 对于需要数学计算或逻辑推理的子问题,检索外部文档不一定有帮助,需要与工具调用机制结合
  • 仅在英文数据集上评估,跨语言多跳问答场景的表现有待验证
  • 检索质量仍是瓶颈,当外部知识库覆盖不足时,即使正确触发检索也可能无法获取有效信息
  • 当前方法在开域问答场景下的表现未验证,开域问题的置信度估计更困难
  • 未来可以将主动决策机制与更强的推理模型(如o1系列)结合,进一步提升长链推理能力

相关工作与启发

  • vs IRCoT: IRCoT对每一步都进行检索,本文通过主动决策减少不必要的检索,在降低延迟的同时提升了准确率
  • vs Self-RAG: Self-RAG也考虑了检索的自适应性,但主要通过特殊token来控制,本文直接利用输出概率更加端到端
  • vs ReAct: ReAct让LLM自主决定行动,但缺乏显式的置信度机制,决策更依赖prompt设计
  • 本文的主动检索策略也可以与知识图谱结合,在结构化知识和非结构化文档之间动态选择信息源

评分

  • 新颖性: ⭐⭐⭐⭐ 主动学习思想引入多跳QA有新意,但自适应检索的概念并非全新
  • 实验充分度: ⭐⭐⭐⭐ 多个数据集评估且消融实验完整
  • 写作质量: ⭐⭐⭐⭐ 动机清晰、方法表述流畅
  • 价值: ⭐⭐⭐⭐ 对实际部署RAG系统有直接参考价值

相关论文