ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG¶
会议: NeurIPS 2025
arXiv: 2510.13193
代码: 有
领域: 图学习 / RAG
关键词: 知识图谱, RAG, LLM引导图遍历, 记忆重放, 无训练记忆
一句话总结¶
提出ReMindRAG,一种结合LLM引导的KG遍历(节点探索+利用)与无训练记忆重放机制的KG-RAG系统,将LLM遍历经验存储在边嵌入中,在后续相似查询时显著减少LLM调用次数(约50%成本降低),同时提升回答准确率(5%-10%提升)。
研究背景与动机¶
RAG系统通过检索外部知识增强LLM的生成能力。基于知识图谱的RAG(KG-RAG)利用图结构表示实体间关系,在多跳推理和长距离依赖任务上具有优势。
然而,现有KG-RAG方法面临系统效果与成本效率之间的冲突:
传统图搜索算法(PageRank、GNN等):成本低但无法捕捉细粒度语义关系,效果不佳
LLM引导的图遍历(如Plan-on-Graph):利用LLM的语义理解能力做遍历决策,效果好但需要反复调用LLM,导致token消耗大、推理时间长
核心挑战: 如何让KG-RAG系统在保持LLM引导遍历的高效果的同时,大幅降低LLM的调用成本?
现有方案的局限: - 传统图剪枝方法可能丢失关键信息 - 路径规划方法效率提升有限 - 没有利用历史遍历经验来加速未来查询
方法详解¶
整体框架¶
ReMindRAG包含两个核心模块: 1. LLM引导的KG遍历:通过节点探索(Exploration)和节点利用(Exploitation)平衡局部深搜与全局搜索 2. 记忆重放(Memory Replay):将LLM的遍历经验无训练地编码到KG边嵌入中,后续相似查询可直接利用记忆
关键设计¶
1. LLM引导的KG遍历(探索+利用)¶
功能: 从种子节点出发,LLM迭代式扩展子图直到包含足够回答查询的信息。
节点探索(Exploration): 每步中LLM评估子图S中所有节点,选出最可能通向答案的目标节点a。这保证了全局搜索而非局限于单一路径的深度搜索。
节点利用(Exploitation): 给定选中的节点a,从其邻居节点集\(S_a\)中选择最优扩展节点p,将p及对应边加入子图S。
设计动机: 类似于多臂赌博机中的exploration-exploitation平衡——探索保证全局最优可能性,利用保证沿有希望的方向深入。
2. 记忆重放:将遍历经验存入KG边嵌入¶
记忆什么: 区分有效路径(成功定位到答案的路径)和无效路径(未贡献于答案的路径),通过DFS算法从最终子图中提取。
如何记忆: 通过闭式公式更新每条边的嵌入向量\(v\):
权重函数:\(\delta(\mathbf{x}) = \frac{2}{\pi}\cos(\frac{\pi}{2}\|\mathbf{x}\|_2)\)
- 有效路径增强:\(\hat{v} = v + \delta(v) \cdot \frac{q}{\|q\|_2}\)(沿查询嵌入方向更新)
- 无效路径惩罚:\(\hat{v} = v - \delta(\frac{v \cdot q}{\|q\|_2}) \cdot \frac{v \cdot q}{\|q\|_2}\)(减少沿查询方向的分量)
两个关键特性: - Fast Wakeup: 当边嵌入范数小时(初始零向量),\(\delta\)函数值大(≈2/π),实现快速学习 - Damped Update: 当边嵌入范数大时(已积累经验),\(\delta\)函数值小,抵抗后续更新的扰动
设计动机: 模拟LLM将世界知识"记忆"在参数中的方式,但以无训练的方式将遍历经验编码到图的边嵌入中。
3. 基于记忆的高效子图扩展¶
在LLM引导遍历之前,先利用记忆扩展初始子图。对每个种子节点执行DFS,通过边嵌入与查询的匹配度判断是否加入邻居:
当\(w > \lambda\)时扩展,否则剪枝。这使得对相似查询可以快速通过记忆找到答案子图,无需再调用LLM。
理论分析¶
记忆容量定理: 当嵌入维度\(d\)足够大时,对于最大角度\(\theta\)内的语义相似查询集合,边嵌入能有效存储这些查询的遍历信息:
理论上界\(\lambda = 0.775\),与现有研究中余弦相似度0.6作为语义相似判定标准一致。
实验关键数据¶
主实验:系统效果评估¶
在GPT-4o-mini和Deepseek-V3两种backbone下:
| 方法 | 长依赖QA (avg) | 多跳QA (avg) | 简单QA (avg) |
|---|---|---|---|
| LLM Only | 22.82% | 47.43% | 24.11% |
| NaiveRAG | 41.95% | 57.73% | 57.18% |
| GraphRAG | 17.95% | 40.83% | 14.58% |
| LightRAG | 45.30% | 49.48% | 56.16% |
| HippoRAG2 | 38.93% | 66.50% | 72.18% |
| Plan-on-Graph | 23.62% | 53.19% | 35.58% |
| ReMindRAG | 58.39% | 76.80% | 76.84% |
ReMindRAG在三类任务上均显著优于所有基线,长依赖QA和多跳QA上分别领先最佳基线约12%和10%。
记忆效率与成本实验(消融)¶
多轮记忆+成本节省(Multi-Hop QA, GPT-4o-mini):
| 配置 | 准确率 | Tokens/查询 | 说明 |
|---|---|---|---|
| 无记忆 | 74.22% | 10.16K | 初始状态 |
| 1轮记忆(Same) | 79.78% | 7.73K | 成本↓24%,准确率↑5.6% |
| 2轮记忆(Same) | 84.04% | 6.56K | 成本↓35%,准确率↑9.8% |
| 3轮记忆(Same) | 87.62% | 5.89K | 成本↓42%,准确率↑13.4% |
| 1轮记忆(Similar) | 75.53% | 9.88K | 语义等价问题也有效 |
| 1轮记忆(Different) | 72.34% | 10.57K | 不同问题也能部分受益 |
关键发现¶
- 自纠错能力: ReMindRAG在多轮记忆后准确率持续提升(最高+13%),即使初次回答错误,记忆机制可以通过惩罚无效路径实现自动纠错
- 记忆稳定性: 在交替处理不同数据集的极端测试下(Origin/Different轮替),系统仍保持稳定性能
- 维度鲁棒性: 将嵌入维度从768截断到12时,系统性能几乎不受影响,证明记忆机制对维度不敏感
- 成本大幅降低: 3轮记忆后token消耗减少约58%
亮点与洞察¶
- 无训练记忆机制: 不需要任何训练过程,通过闭式公式直接更新边嵌入,优雅且高效
- Fast Wakeup + Damped Update: 余弦权重函数的设计精巧——初始时快速学习,积累后稳定不易遗忘
- 自纠错是意外之喜: 记忆机制不仅降低成本,还通过反复记忆(惩罚错误路径+增强正确路径)提升了准确率
- 理论与实践统一: 记忆容量有理论保证,实验验证了维度无关的鲁棒性
局限与展望¶
- 首次查询仍需多次LLM调用: 没有记忆时的初始遍历成本仍然较高
- 记忆污染风险: 如果初次回答完全错误,可能会记忆错误路径,需要多轮纠错
- KG构建质量依赖: 系统性能受底层KG构建质量影响——如果实体/关系提取有误,记忆也会有偏差
- 可扩展性: 当KG规模非常大时,DFS扩展和边嵌入存储的开销需要评估
相关工作与启发¶
- 与HippoRAG2相比:ReMindRAG通过LLM引导遍历获得更精确的检索,而非依赖传统图算法
- 记忆重放思路来自认知科学,但实现方式(边嵌入存储)是创新的
- 可考虑用FAQ预初始化记忆来解决冷启动问题
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (无训练记忆重放+LLM引导遍历的组合非常新颖)
- 实验充分度: ⭐⭐⭐⭐⭐ (多任务、多backbone、多轮记忆、消融全面)
- 写作质量: ⭐⭐⭐⭐ (图例清晰,案例分析丰富)
- 价值: ⭐⭐⭐⭐⭐ (同时提升效果和效率,实用价值很高)
相关论文¶
- [NeurIPS 2025] S'MoRE: Structural Mixture of Residual Experts for Parameter-Efficient LLM Fine-tuning
- [NeurIPS 2025] GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation
- [AAAI 2026] Human Cognition Inspired RAG with Knowledge Graph for Complex Problem Solving
- [ACL 2025] Knowledge Graph Retrieval-Augmented Generation for LLM-based Recommendation (K-RagRec)
- [ACL 2025] mRAKL: Multilingual Retrieval-Augmented Knowledge Graph Construction for Low-Resourced Languages