跳转至

NeuroPath: Neurobiology-Inspired Path Tracking and Reflection for Semantically Coherent Retrieval

会议: NeurIPS 2025
arXiv: 2511.14096
代码: GitHub (有)
领域: Video Understanding / RAG
关键词: RAG, 多跳问答, 知识图谱, 位置细胞, 语义路径追踪

一句话总结

受神经生物学中海马体位置细胞导航与记忆巩固机制启发,提出 NeuroPath——一个基于语义路径追踪的 RAG 框架,通过 LLM 驱动的目标导向路径构建和后检索补全策略,在多跳问答任务上实现 recall@2 平均 16.3% 和 recall@5 平均 13.5% 的提升。

研究背景与动机

领域现状:RAG 显著增强了 LLM 在知识密集型任务上的表现。朴素 RAG 基于向量相似度检索文档,但无法捕获文档间关联,难以支撑多跳推理。

现有痛点: - 朴素 RAG:扁平化知识组织,无法跨文档关联 - 图基 RAG (HippoRAG):使用 PPR 算法传播节点重要性,但忽略边语义导致结构相关性高于语义连贯性 - 图基 RAG (LightRAG):子图构建时收集直接邻居引入大量噪声

核心矛盾:图结构的优势在于显式的语义推理路径,但现有图基方法更关注拓扑结构而非路径语义连贯性,未能充分利用这一优势。

本文目标:(1) 检索结果的语义连贯性丢失;(2) 节点匹配和子图构建中引入不相关噪声。

切入角度:类比海马体位置细胞的导航机制——位置细胞在导航时预演(preplay)未来路径序列,休息时重演(replay)以巩固记忆。

核心idea:将知识图谱中的实体视为位置细胞、三元组视为位置场,通过 LLM 驱动的目标导向语义路径追踪进行动态检索。

方法详解

整体框架

三步流程:(1) 静态索引:用 LLM 从文档中提取知识图谱并构建共指集;(2) 动态路径追踪:模拟位置细胞预演机制,LLM 从种子节点出发进行目标导向路径筛选和扩展;(3) 后检索补全:模拟重演机制,利用中间推理链和原始查询进行二阶段检索补全缺失信息。

关键设计

  1. 静态索引与伪共指解析

    • 用 LLM 从每个文档 \(d_i\) 中一次性提取实体集 \(\mathcal{E}\) 和关系三元组集 \(\mathcal{T}\)
    • 对每个实体 \(e_i\) 构建潜在共指集 \(\mathcal{R}_i\),包含余弦相似度超过 0.8 的候选实体: \(\text{Sim}(i,j) = \text{CosSim}(\text{Enc}(i), \text{Enc}(j))\) \(\mathcal{R}_i = \text{argtopk}_j \text{Sim}(i,j), \quad i,j \in \mathcal{E}\) 默认保留 top-5 相似实体作为共指集。
  2. 动态路径追踪(模拟 Preplay)

    • 种子节点筛选:从查询中提取关键实体,匹配图中最相似节点,扩展共指集作为起始种子 \(\mathcal{S}^0\)
    • 路径扩展:检索与种子节点相连的三元组段 \(\mathcal{P}_{sub}^h\),拼接到当前扩展路径 \(\mathcal{P}_{exp}^h\) 后形成候选路径 \(\mathcal{P}_{cur}^{h+1} = \mathcal{P}_{val}^h + \text{Cat}(\mathcal{P}_{exp}^h, \mathcal{P}_{sub}^h)\)
    • LLM 追踪:LLM 对候选路径进行筛选,标记有效路径 \(\mathcal{P}_{val}^h\),决定是否需要扩展并生成扩展需求 \(g^h\)
    • 基于扩展需求的剪枝:利用上一跳 LLM 生成的扩展需求对新路径进行相似度剪枝,避免指数增长: \(\mathcal{P}_{cur}^{h'} = \text{argtopk}_p \text{Sim}(g^{h-1}, p), \quad p \in \mathcal{P}_{cur}^h\) 默认保留 top-30 路径。
  3. 后检索补全(模拟 Replay)

    • 确定最终路径后,收集路径上的源文档作为候选 \(\mathcal{D}_p\)
    • 将最后一跳的推理链 \(c_{\text{last}}\) 和扩展需求 \(g_{\text{last}}\) 与原始查询 \(q\) 拼接,进行二阶段检索补全缺失信息
    • 最终文档集 \(\mathcal{D}_{ret} = \mathcal{D}_p \cup \mathcal{D}_e\)

训练策略

  • 无需额外训练——使用 Zero-Shot 提示
  • 图索引使用 GPT-4o-mini
  • 路径追踪可使用 GPT-4o-mini 或 Qwen-2.5-14B
  • 最大推理跳数默认设为 2

实验关键数据

主实验——检索性能(Contriever 检索器)

方法 MuSiQue R@2 MuSiQue R@5 2Wiki R@2 2Wiki R@5 HotpotQA R@2 HotpotQA R@5 Avg R@2 Avg R@5
BGE-M3 (朴素) 40.4 54.2 64.9 71.8 71.8 84.7 59.0 70.2
HippoRAG 2 (图基) 41.8 55.5 62.5 74.2 65.3 83.4 56.5 71.0
Iter-RetGen (迭代) 46.0 59.8 62.1 76.5 78.3 90.6 62.1 75.6
NeuroPath 48.0 62.7 77.2 92.5 75.6 90.4 66.9 81.9

QA 性能(GPT-4o-mini + Contriever)

方法 MuSiQue EM 2Wiki EM HotpotQA EM Avg EM
HippoRAG 27.8 58.6 43.3 43.2
HippoRAG 2 27.4 46.0 50.7 41.4
Iter-RetGen 29.9 51.5 48.7 43.4
NeuroPath 31.4 63.4 50.5 48.4

消融实验

组件 MuSiQue R@2 2Wiki R@2 HotpotQA R@2 Token消耗变化
完整版 (p=30) 48.0 77.2 75.9 基准
w/o 剪枝 48.7 76.8 75.7 Token 增加 ~45%
p=20 47.3 76.5 74.9 Token 减少 ~7%
w/o 后检索补全 (hop=2) 41.8 73.6 67.5
w/o 后检索补全 (hop=1) 35.5 61.0 61.3

关键发现

  • 相比先进图基 RAG 方法,recall@2 平均提升 16.3%,recall@5 平均提升 13.5%
  • 相比迭代 RAG 方法,精度更高且 token 消耗减少 22.8%
  • 在最复杂的 MuSiQue 数据集上优势最大(专为高难度多跳推理设计)
  • 对检索器选择不敏感,而迭代方法和 HippoRAG 2 对检索器高度敏感(差异可达 20%)
  • 在 4 个较小 LLM(Llama3.1, GLM4, Mistral0.3, Gemma3)上也保持鲁棒性能
  • 后检索补全(Replay 机制)约贡献 6-8% 的 recall 提升

亮点与洞察

  • 神经科学启发的创新类比:位置细胞 preplay/replay → 路径追踪/后检索补全,类比恰当且实际有效
  • 路径级检索优于节点/子图级:显式语义路径保证了检索结果的连贯性,避免了子图方法的噪声问题
  • LLM 主动参与检索过程:不同于被动匹配,LLM 在每一跳主动推理、筛选、预测扩展方向,实现"思考式检索"
  • Token 效率高:相比迭代 RAG 减少 22.8% 的 token 消耗,同时精度更高

局限与展望

  • 依赖 LLM 进行路径追踪,推理成本(LLM API 调用次数)仍然较高
  • 知识图谱的质量受 LLM 提取能力限制,提取错误会传播到后续检索
  • 共指解析基于简单的向量相似度阈值(0.8),对名称差异较大的共指实体可能遗漏
  • 最大跳数限制为 2,更深层推理链的可扩展性有待验证
  • 在 HotpotQA 等知识集成需求较低的任务上,相比简单方法优势不明显

相关工作与启发

  • HippoRAG:本文直接竞争者,使用 PPR 算法但忽略边语义,NeuroPath 通过显式路径语义连贯性解决此问题
  • LightRAG:子图构建引入过多噪声(60 实体、169 关系仍答错),说明"更多检索"不等于"更好检索"
  • PathRAG:另一路径方法,但使用等量资源分配、忽略边重要性和语义
  • 位置细胞理论(O'Keefe, 1971):为方法设计提供了优雅的概念框架
  • 启发:RAG 从"检索更多"向"检索更精准路径"转变可能是未来趋势

评分

  • 新颖性: ⭐⭐⭐⭐ 神经科学类比新颖且实际且有效,路径追踪思路有独创性
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个主要数据集+三个附加数据集,多种LLM和检索器的消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,案例研究直观,但神经科学类比的深度可以更强
  • 价值: ⭐⭐⭐⭐ 在多跳QA上大幅超越SOTA,对RAG社区有重要参考价值

相关论文