NeuroPath: Neurobiology-Inspired Path Tracking and Reflection for Semantically Coherent Retrieval¶
会议: NeurIPS 2025
arXiv: 2511.14096
代码: GitHub (有)
领域: Video Understanding / RAG
关键词: RAG, 多跳问答, 知识图谱, 位置细胞, 语义路径追踪
一句话总结¶
受神经生物学中海马体位置细胞导航与记忆巩固机制启发,提出 NeuroPath——一个基于语义路径追踪的 RAG 框架,通过 LLM 驱动的目标导向路径构建和后检索补全策略,在多跳问答任务上实现 recall@2 平均 16.3% 和 recall@5 平均 13.5% 的提升。
研究背景与动机¶
领域现状:RAG 显著增强了 LLM 在知识密集型任务上的表现。朴素 RAG 基于向量相似度检索文档,但无法捕获文档间关联,难以支撑多跳推理。
现有痛点: - 朴素 RAG:扁平化知识组织,无法跨文档关联 - 图基 RAG (HippoRAG):使用 PPR 算法传播节点重要性,但忽略边语义导致结构相关性高于语义连贯性 - 图基 RAG (LightRAG):子图构建时收集直接邻居引入大量噪声
核心矛盾:图结构的优势在于显式的语义推理路径,但现有图基方法更关注拓扑结构而非路径语义连贯性,未能充分利用这一优势。
本文目标:(1) 检索结果的语义连贯性丢失;(2) 节点匹配和子图构建中引入不相关噪声。
切入角度:类比海马体位置细胞的导航机制——位置细胞在导航时预演(preplay)未来路径序列,休息时重演(replay)以巩固记忆。
核心idea:将知识图谱中的实体视为位置细胞、三元组视为位置场,通过 LLM 驱动的目标导向语义路径追踪进行动态检索。
方法详解¶
整体框架¶
三步流程:(1) 静态索引:用 LLM 从文档中提取知识图谱并构建共指集;(2) 动态路径追踪:模拟位置细胞预演机制,LLM 从种子节点出发进行目标导向路径筛选和扩展;(3) 后检索补全:模拟重演机制,利用中间推理链和原始查询进行二阶段检索补全缺失信息。
关键设计¶
-
静态索引与伪共指解析:
- 用 LLM 从每个文档 \(d_i\) 中一次性提取实体集 \(\mathcal{E}\) 和关系三元组集 \(\mathcal{T}\)
- 对每个实体 \(e_i\) 构建潜在共指集 \(\mathcal{R}_i\),包含余弦相似度超过 0.8 的候选实体: \(\text{Sim}(i,j) = \text{CosSim}(\text{Enc}(i), \text{Enc}(j))\) \(\mathcal{R}_i = \text{argtopk}_j \text{Sim}(i,j), \quad i,j \in \mathcal{E}\) 默认保留 top-5 相似实体作为共指集。
-
动态路径追踪(模拟 Preplay):
- 种子节点筛选:从查询中提取关键实体,匹配图中最相似节点,扩展共指集作为起始种子 \(\mathcal{S}^0\)
- 路径扩展:检索与种子节点相连的三元组段 \(\mathcal{P}_{sub}^h\),拼接到当前扩展路径 \(\mathcal{P}_{exp}^h\) 后形成候选路径 \(\mathcal{P}_{cur}^{h+1} = \mathcal{P}_{val}^h + \text{Cat}(\mathcal{P}_{exp}^h, \mathcal{P}_{sub}^h)\)
- LLM 追踪:LLM 对候选路径进行筛选,标记有效路径 \(\mathcal{P}_{val}^h\),决定是否需要扩展并生成扩展需求 \(g^h\)
- 基于扩展需求的剪枝:利用上一跳 LLM 生成的扩展需求对新路径进行相似度剪枝,避免指数增长: \(\mathcal{P}_{cur}^{h'} = \text{argtopk}_p \text{Sim}(g^{h-1}, p), \quad p \in \mathcal{P}_{cur}^h\) 默认保留 top-30 路径。
-
后检索补全(模拟 Replay):
- 确定最终路径后,收集路径上的源文档作为候选 \(\mathcal{D}_p\)
- 将最后一跳的推理链 \(c_{\text{last}}\) 和扩展需求 \(g_{\text{last}}\) 与原始查询 \(q\) 拼接,进行二阶段检索补全缺失信息
- 最终文档集 \(\mathcal{D}_{ret} = \mathcal{D}_p \cup \mathcal{D}_e\)
训练策略¶
- 无需额外训练——使用 Zero-Shot 提示
- 图索引使用 GPT-4o-mini
- 路径追踪可使用 GPT-4o-mini 或 Qwen-2.5-14B
- 最大推理跳数默认设为 2
实验关键数据¶
主实验——检索性能(Contriever 检索器)¶
| 方法 | MuSiQue R@2 | MuSiQue R@5 | 2Wiki R@2 | 2Wiki R@5 | HotpotQA R@2 | HotpotQA R@5 | Avg R@2 | Avg R@5 |
|---|---|---|---|---|---|---|---|---|
| BGE-M3 (朴素) | 40.4 | 54.2 | 64.9 | 71.8 | 71.8 | 84.7 | 59.0 | 70.2 |
| HippoRAG 2 (图基) | 41.8 | 55.5 | 62.5 | 74.2 | 65.3 | 83.4 | 56.5 | 71.0 |
| Iter-RetGen (迭代) | 46.0 | 59.8 | 62.1 | 76.5 | 78.3 | 90.6 | 62.1 | 75.6 |
| NeuroPath | 48.0 | 62.7 | 77.2 | 92.5 | 75.6 | 90.4 | 66.9 | 81.9 |
QA 性能(GPT-4o-mini + Contriever)¶
| 方法 | MuSiQue EM | 2Wiki EM | HotpotQA EM | Avg EM |
|---|---|---|---|---|
| HippoRAG | 27.8 | 58.6 | 43.3 | 43.2 |
| HippoRAG 2 | 27.4 | 46.0 | 50.7 | 41.4 |
| Iter-RetGen | 29.9 | 51.5 | 48.7 | 43.4 |
| NeuroPath | 31.4 | 63.4 | 50.5 | 48.4 |
消融实验¶
| 组件 | MuSiQue R@2 | 2Wiki R@2 | HotpotQA R@2 | Token消耗变化 |
|---|---|---|---|---|
| 完整版 (p=30) | 48.0 | 77.2 | 75.9 | 基准 |
| w/o 剪枝 | 48.7 | 76.8 | 75.7 | Token 增加 ~45% |
| p=20 | 47.3 | 76.5 | 74.9 | Token 减少 ~7% |
| w/o 后检索补全 (hop=2) | 41.8 | 73.6 | 67.5 | — |
| w/o 后检索补全 (hop=1) | 35.5 | 61.0 | 61.3 | — |
关键发现¶
- 相比先进图基 RAG 方法,recall@2 平均提升 16.3%,recall@5 平均提升 13.5%
- 相比迭代 RAG 方法,精度更高且 token 消耗减少 22.8%
- 在最复杂的 MuSiQue 数据集上优势最大(专为高难度多跳推理设计)
- 对检索器选择不敏感,而迭代方法和 HippoRAG 2 对检索器高度敏感(差异可达 20%)
- 在 4 个较小 LLM(Llama3.1, GLM4, Mistral0.3, Gemma3)上也保持鲁棒性能
- 后检索补全(Replay 机制)约贡献 6-8% 的 recall 提升
亮点与洞察¶
- 神经科学启发的创新类比:位置细胞 preplay/replay → 路径追踪/后检索补全,类比恰当且实际有效
- 路径级检索优于节点/子图级:显式语义路径保证了检索结果的连贯性,避免了子图方法的噪声问题
- LLM 主动参与检索过程:不同于被动匹配,LLM 在每一跳主动推理、筛选、预测扩展方向,实现"思考式检索"
- Token 效率高:相比迭代 RAG 减少 22.8% 的 token 消耗,同时精度更高
局限与展望¶
- 依赖 LLM 进行路径追踪,推理成本(LLM API 调用次数)仍然较高
- 知识图谱的质量受 LLM 提取能力限制,提取错误会传播到后续检索
- 共指解析基于简单的向量相似度阈值(0.8),对名称差异较大的共指实体可能遗漏
- 最大跳数限制为 2,更深层推理链的可扩展性有待验证
- 在 HotpotQA 等知识集成需求较低的任务上,相比简单方法优势不明显
相关工作与启发¶
- HippoRAG:本文直接竞争者,使用 PPR 算法但忽略边语义,NeuroPath 通过显式路径语义连贯性解决此问题
- LightRAG:子图构建引入过多噪声(60 实体、169 关系仍答错),说明"更多检索"不等于"更好检索"
- PathRAG:另一路径方法,但使用等量资源分配、忽略边重要性和语义
- 位置细胞理论(O'Keefe, 1971):为方法设计提供了优雅的概念框架
- 启发:RAG 从"检索更多"向"检索更精准路径"转变可能是未来趋势
评分¶
- 新颖性: ⭐⭐⭐⭐ 神经科学类比新颖且实际且有效,路径追踪思路有独创性
- 实验充分度: ⭐⭐⭐⭐⭐ 三个主要数据集+三个附加数据集,多种LLM和检索器的消融
- 写作质量: ⭐⭐⭐⭐ 结构清晰,案例研究直观,但神经科学类比的深度可以更强
- 价值: ⭐⭐⭐⭐ 在多跳QA上大幅超越SOTA,对RAG社区有重要参考价值
相关论文¶
- [NeurIPS 2025] PASS: Path-Selective State Space Model for Event-Based Recognition
- [ICCV 2025] HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics
- [NeurIPS 2025] VGEnt: Graph-Based Retrieval-Reasoning-Augmented Generation for Long Video Understanding
- [NeurIPS 2025] AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding
- [CVPR 2026] RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation