NeuroPath: Neurobiology-Inspired Path Tracking and Reflection for Semantically Coherent Retrieval¶

会议: NeurIPS 2025
arXiv: 2511.14096
代码: GitHub (有)
领域: Video Understanding / RAG
关键词: RAG, 多跳问答, 知识图谱, 位置细胞, 语义路径追踪

一句话总结¶

受神经生物学中海马体位置细胞导航与记忆巩固机制启发，提出 NeuroPath——一个基于语义路径追踪的 RAG 框架，通过 LLM 驱动的目标导向路径构建和后检索补全策略，在多跳问答任务上实现 recall@2 平均 16.3% 和 recall@5 平均 13.5% 的提升。

研究背景与动机¶

领域现状：RAG 显著增强了 LLM 在知识密集型任务上的表现。朴素 RAG 基于向量相似度检索文档，但无法捕获文档间关联，难以支撑多跳推理。

现有痛点： - 朴素 RAG：扁平化知识组织，无法跨文档关联 - 图基 RAG (HippoRAG)：使用 PPR 算法传播节点重要性，但忽略边语义导致结构相关性高于语义连贯性 - 图基 RAG (LightRAG)：子图构建时收集直接邻居引入大量噪声

核心矛盾：图结构的优势在于显式的语义推理路径，但现有图基方法更关注拓扑结构而非路径语义连贯性，未能充分利用这一优势。

本文目标：(1) 检索结果的语义连贯性丢失；(2) 节点匹配和子图构建中引入不相关噪声。

切入角度：类比海马体位置细胞的导航机制——位置细胞在导航时预演（preplay）未来路径序列，休息时重演（replay）以巩固记忆。

核心idea：将知识图谱中的实体视为位置细胞、三元组视为位置场，通过 LLM 驱动的目标导向语义路径追踪进行动态检索。

方法详解¶

整体框架¶

三步流程：(1) 静态索引：用 LLM 从文档中提取知识图谱并构建共指集；(2) 动态路径追踪：模拟位置细胞预演机制，LLM 从种子节点出发进行目标导向路径筛选和扩展；(3) 后检索补全：模拟重演机制，利用中间推理链和原始查询进行二阶段检索补全缺失信息。

关键设计¶

静态索引与伪共指解析：
- 用 LLM 从每个文档 \(d_i\) 中一次性提取实体集 \(\mathcal{E}\) 和关系三元组集 \(\mathcal{T}\)
- 对每个实体 \(e_i\) 构建潜在共指集 \(\mathcal{R}_i\)，包含余弦相似度超过 0.8 的候选实体： \(\text{Sim}(i,j) = \text{CosSim}(\text{Enc}(i), \text{Enc}(j))\) \(\mathcal{R}_i = \text{argtopk}_j \text{Sim}(i,j), \quad i,j \in \mathcal{E}\) 默认保留 top-5 相似实体作为共指集。
动态路径追踪（模拟 Preplay）：
- 种子节点筛选：从查询中提取关键实体，匹配图中最相似节点，扩展共指集作为起始种子 \(\mathcal{S}^0\)
- 路径扩展：检索与种子节点相连的三元组段 \(\mathcal{P}_{sub}^h\)，拼接到当前扩展路径 \(\mathcal{P}_{exp}^h\) 后形成候选路径 \(\mathcal{P}_{cur}^{h+1} = \mathcal{P}_{val}^h + \text{Cat}(\mathcal{P}_{exp}^h, \mathcal{P}_{sub}^h)\)
- LLM 追踪：LLM 对候选路径进行筛选，标记有效路径 \(\mathcal{P}_{val}^h\)，决定是否需要扩展并生成扩展需求 \(g^h\)
- 基于扩展需求的剪枝：利用上一跳 LLM 生成的扩展需求对新路径进行相似度剪枝，避免指数增长： \(\mathcal{P}_{cur}^{h'} = \text{argtopk}_p \text{Sim}(g^{h-1}, p), \quad p \in \mathcal{P}_{cur}^h\) 默认保留 top-30 路径。
后检索补全（模拟 Replay）：
- 确定最终路径后，收集路径上的源文档作为候选 \(\mathcal{D}_p\)
- 将最后一跳的推理链 \(c_{\text{last}}\) 和扩展需求 \(g_{\text{last}}\) 与原始查询 \(q\) 拼接，进行二阶段检索补全缺失信息
- 最终文档集 \(\mathcal{D}_{ret} = \mathcal{D}_p \cup \mathcal{D}_e\)

训练策略¶

无需额外训练——使用 Zero-Shot 提示
图索引使用 GPT-4o-mini
路径追踪可使用 GPT-4o-mini 或 Qwen-2.5-14B
最大推理跳数默认设为 2

实验关键数据¶

主实验——检索性能（Contriever 检索器）¶

方法	MuSiQue R@2	MuSiQue R@5	2Wiki R@2	2Wiki R@5	HotpotQA R@2	HotpotQA R@5	Avg R@2	Avg R@5
BGE-M3 (朴素)	40.4	54.2	64.9	71.8	71.8	84.7	59.0	70.2
HippoRAG 2 (图基)	41.8	55.5	62.5	74.2	65.3	83.4	56.5	71.0
Iter-RetGen (迭代)	46.0	59.8	62.1	76.5	78.3	90.6	62.1	75.6
NeuroPath	48.0	62.7	77.2	92.5	75.6	90.4	66.9	81.9

QA 性能（GPT-4o-mini + Contriever）¶

方法	MuSiQue EM	2Wiki EM	HotpotQA EM	Avg EM
HippoRAG	27.8	58.6	43.3	43.2
HippoRAG 2	27.4	46.0	50.7	41.4
Iter-RetGen	29.9	51.5	48.7	43.4
NeuroPath	31.4	63.4	50.5	48.4

消融实验¶

组件	MuSiQue R@2	2Wiki R@2	HotpotQA R@2	Token消耗变化
完整版 (p=30)	48.0	77.2	75.9	基准
w/o 剪枝	48.7	76.8	75.7	Token 增加 ~45%
p=20	47.3	76.5	74.9	Token 减少 ~7%
w/o 后检索补全 (hop=2)	41.8	73.6	67.5	—
w/o 后检索补全 (hop=1)	35.5	61.0	61.3	—

关键发现¶

相比先进图基 RAG 方法，recall@2 平均提升 16.3%，recall@5 平均提升 13.5%
相比迭代 RAG 方法，精度更高且 token 消耗减少 22.8%
在最复杂的 MuSiQue 数据集上优势最大（专为高难度多跳推理设计）
对检索器选择不敏感，而迭代方法和 HippoRAG 2 对检索器高度敏感（差异可达 20%）
在 4 个较小 LLM（Llama3.1, GLM4, Mistral0.3, Gemma3）上也保持鲁棒性能
后检索补全（Replay 机制）约贡献 6-8% 的 recall 提升

亮点与洞察¶

神经科学启发的创新类比：位置细胞 preplay/replay → 路径追踪/后检索补全，类比恰当且实际有效
路径级检索优于节点/子图级：显式语义路径保证了检索结果的连贯性，避免了子图方法的噪声问题
LLM 主动参与检索过程：不同于被动匹配，LLM 在每一跳主动推理、筛选、预测扩展方向，实现"思考式检索"
Token 效率高：相比迭代 RAG 减少 22.8% 的 token 消耗，同时精度更高

局限与展望¶

依赖 LLM 进行路径追踪，推理成本（LLM API 调用次数）仍然较高
知识图谱的质量受 LLM 提取能力限制，提取错误会传播到后续检索
共指解析基于简单的向量相似度阈值（0.8），对名称差异较大的共指实体可能遗漏
最大跳数限制为 2，更深层推理链的可扩展性有待验证
在 HotpotQA 等知识集成需求较低的任务上，相比简单方法优势不明显

评分¶

新颖性: ⭐⭐⭐⭐ 神经科学类比新颖且实际且有效，路径追踪思路有独创性
实验充分度: ⭐⭐⭐⭐⭐ 三个主要数据集+三个附加数据集，多种LLM和检索器的消融
写作质量: ⭐⭐⭐⭐ 结构清晰，案例研究直观，但神经科学类比的深度可以更强
价值: ⭐⭐⭐⭐ 在多跳QA上大幅超越SOTA，对RAG社区有重要参考价值