跳转至

LeanRAG: Knowledge-Graph-Based Generation with Semantic Aggregation and Hierarchical Retrieval

会议: AAAI 2026
arXiv: 2508.10391
代码: GitHub
领域: 信息检索 / 知识图谱 / RAG
关键词: 检索增强生成, 知识图谱, 层次聚合, 最近公共祖先, 语义网络

一句话总结

提出 LeanRAG 框架,通过语义聚合算法在层次化知识图谱的摘要节点间自动构建显式关系打破"语义孤岛",并基于最近公共祖先(LCA)的自底向上检索策略高效导航层次结构,在四个 QA 基准上取得 SOTA 同时减少 46% 的检索冗余。

研究背景与动机

检索增强生成(RAG)通过将 LLM 与外部知识库结合来缓解幻觉问题,但朴素 RAG 的文本块检索面临"分块困境":细粒度块丢失上下文,粗粒度块引入噪声。基于知识图谱的 RAG 方法应运而生——GraphRAG 将文档组织为社区知识图谱保留局部上下文,HiRAG 进一步引入层次结构将实体聚类为多级摘要。

然而,现有层次化 KG-RAG 方法存在两个未被解决的关键挑战

语义孤岛问题:高层摘要节点之间缺乏显式关系连接,彼此孤立。不同概念社区之间无法进行跨社区推理,高层知识变成了一堆互不相通的"岛屿"

结构-检索脱节问题:检索过程不感知图的拓扑结构,往往退化为对所有节点的平坦语义搜索。精心构建的层次索引在检索时被"展平"使用,丰富的结构信息仅用于检索后的上下文扩展,而非指导检索本身

本文的核心 idea 是:将知识结构构建和检索策略进行深度协同设计——聚合阶段不仅聚类实体还自动推断摘要间的关系(消除语义孤岛),检索阶段原生利用层次结构通过 LCA 路径遍历精准导航(消除结构-检索脱节)。

方法详解

整体框架

LeanRAG 由两个核心创新组成:(1)层次知识图谱聚合:从基础 KG \(\mathcal{G}_0\) 自底向上递归构建多层语义网络 \(\mathcal{H} = \{\mathcal{G}_0, \mathcal{G}_1, \ldots, \mathcal{G}_k\}\),每层包含更抽象的实体和实体间的显式关系;(2)基于 LCA 的结构化检索:给定查询,先在基础层锚定最相关的细粒度实体,再沿层次结构向上遍历至最近公共祖先,构建紧凑且上下文连贯的子图作为 LLM 的输入。

关键设计

  1. 递归语义聚类(Recursive Semantic Clustering):

    • 功能:将每层的实体按语义相似性分组
    • 核心思路:对实体描述文本用预训练 embedding 模型编码为稠密向量 \(\mathbf{E}_{i-1} = \{\Phi(d_v) \mid v \in V_{i-1}\}\),然后使用高斯混合模型(GMM)将实体划分为 \(m\) 个不相交的簇 \(\mathcal{C}_{i-1} = \{C_1, C_2, \ldots, C_m\}\)
    • 设计动机:GMM 比硬聚类更灵活,能捕捉实体间的软边界。使用文本描述而非图结构特征做聚类,确保语义一致性
  2. 聚合实体生成(Aggregated Entity Generation):

    • 功能:为每个簇生成一个更抽象的汇总实体
    • 核心思路:对每个簇 \(C_j\),使用 LLM 驱动的生成函数 \(\mathcal{F}_{\text{entity}}\) 综合簇内实体及其关系,生成新的抽象实体和描述:\((\alpha_j, d_{\alpha_j}) = \mathcal{F}_{\text{entity}}(C_j, R_{C_j})\)。新实体 \(\alpha_j\) 成为簇内所有实体的父节点
    • 设计动机:不只是简单聚类,而是考虑簇内关系来生成更有语义内涵的摘要实体,保留了关系信息
  3. 聚合关系生成(Aggregated Relation Generation):

    • 功能:在聚合实体之间推断并创建新的高层关系,打破语义孤岛
    • 核心思路:对任意两个聚合实体 \((\alpha_j, \alpha_k)\),统计其底层簇 \(C_j\)\(C_k\) 之间的跨簇关系 \(R_{<C_j, C_k>}\)。定义连接强度 \(\lambda_{j,k}\) 为跨簇关系数量。若 \(\lambda_{j,k}\) 超过动态阈值 \(\tau\),则用 LLM 生成语义化的高层关系描述 \(r_{<\alpha_j, \alpha_k>} = \mathcal{F}_{\text{rel}}(\alpha_j, \alpha_k, R_{<C_j, C_k>})\);否则直接拼接底层关系文本
    • 设计动机:这是 LeanRAG 区别于所有先前方法的核心创新。HiRAG 等方法只聚类实体不建立摘要间关系,导致高层节点成为孤岛。显式关系使整个层次图在每一层都保持可导航性
  4. 初始实体锚定(Initial Entity Anchoring):

    • 功能:将用户查询锚定到基础层最相关的细粒度实体
    • 核心思路:仅在基础层 \(\mathcal{G}_0\) 的实体集上做稠密检索,找到与查询最语义相似的 top-n 个"种子实体":\(V_{\text{seed}} = \text{Top-n}_{v \in V_0}(\text{sim}(q, d_v))\)
    • 设计动机:从最细粒度出发确保检索精度,避免直接在高层摘要上做模糊匹配
  5. 基于 LCA 的路径遍历检索(LCA Path Traversal):

    • 功能:沿层次结构构建连接种子实体的最小紧凑子图
    • 核心思路:找到种子实体集 \(V_{\text{seed}}\) 在层次结构 \(\mathcal{H}\) 中的最近公共祖先 \(v_{\text{lca}}\)(深度最小的公共祖先),然后收集从每个种子实体到 \(v_{\text{lca}}\) 的所有最短路径上的实体和关系:\(\mathcal{P}_{\text{lca}} = \bigcup_{v \in V_{\text{seed}}} \text{ShortestPath}_\mathcal{H}(v, v_{\text{lca}})\)
    • 最终检索子图 \(\mathcal{G}_{\text{ret}}\) 包含路径上的实体 \(V_{\text{ret}}\)、路径关系 \(R_{\text{lca}}\) 和同层聚合实体间的跨簇关系 \(R_{\text{inter-cluster}}\),同时返回基础实体对应的原始文本块作为辅助证据
    • 设计动机:相比在平坦图上找所有路径(会引入大量噪声中间节点),LCA 路径遍历从细节到共同概念构建"叙事结构",检索内容既紧凑又语义连贯。层次性确保了从具体事实到高层概念的完整覆盖

损失函数 / 训练策略

LeanRAG 是一个无需训练的检索框架,不涉及损失函数设计。关键超参数包括 GMM 聚类数、阈值 \(\tau\)(控制高层关系生成的严格程度,按层级自适应调整)和检索锚点数 \(n\)

实验关键数据

主实验(四个 QA 数据集,1-10 评分,LLM 评判)

数据集 指标 LeanRAG HiRAG GraphRAG NaiveRAG LightRAG
Mix Overall 8.59 8.08 7.87 7.47 7.61
CS Overall 8.82 8.77 8.37 8.77 8.59
Legal Overall 8.49 8.00 8.44 8.21 7.74
Agriculture Overall 8.87 8.87 8.85 8.69 8.56
Mix Diversity 7.73 7.21 7.04 6.65 6.69
Legal Empowerment 8.42 8.18 8.33 8.28 7.83

消融实验

RQ3: 跨簇关系的作用(有无关系路径的 win rate 对比)

数据集 指标 LeanRAG win LeanRAG w/o Relation win
Mix Overall 53.8% 46.2%
CS Overall 58.5% 41.5%
Legal Overall 56.5% 43.5%
Agriculture Overall 58.0% 42.0%
CS Diversity 66.0% 34.0%

RQ4: 原始文本上下文的必要性

数据集 指标 LeanRAG LeanRAG w/o Context
Mix Overall 8.59 7.93 ↓
CS Overall 8.82 8.34 ↓
Legal Overall 8.49 8.00 ↓
Agriculture Overall 8.87 8.53 ↓

RQ2: 检索冗余分析

LeanRAG 的检索上下文 token 数平均比基线方法少 46%,在保持或提升回答质量的同时大幅减少了信息冗余。

关键发现

  • LeanRAG 在四个数据集上几乎所有指标取得最优或持平,Diversity 维度优势最明显(体现了跨簇关系拓宽信息源的效果)
  • 去除跨簇关系后 Diversity 下降最剧烈(CS 数据集:66% vs 34% win rate),验证了关系桥接打破语义孤岛的核心价值
  • 去除原始文本后 Comprehensiveness 和 Empowerment 下降最明显,说明图结构是"语义索引和导航系统",真正的信息丰富度来自原始文本
  • 检索上下文减少 46% 但质量不降,证明 LCA 路径遍历确实比平坦搜索更精确地定位相关信息
  • 在 Agriculture 数据集上与 HiRAG 持平,说明对于领域知识集中且结构简单的场景,层次聚合的额外关系构建收益有限

亮点与洞察

  • "语义孤岛"问题的定义非常精准,抓住了现有层次化 KG-RAG 的核心短板
  • 聚合算法的"不仅建实体还建关系"设计思路简洁但影响深远——将碎片化的层次树变成了完整连通的语义网络
  • LCA 路径遍历是一个非常优雅的检索策略:借用了树结构算法中的经典概念来解决 RAG 检索问题
  • 检索结构与索引结构的"协同设计"(co-design)理念值得推广——先前方法的痛点恰恰在于两者脱节
  • 实验设计清晰,四个 RQ 各有针对性,消融分析把框架每个组件的贡献量化了

局限与展望

  • 层次聚合过程需要多次调用 LLM 生成聚合实体和关系描述,构建成本较高(尤其对大规模知识库)
  • GMM 聚类数和阈值 \(\tau\) 的选择依赖验证集调优,缺乏自动化的超参数确定方法
  • LCA 检索假设知识图谱具有近似树状的层次结构,对于高度互联的图结构可能不太适用
  • 评估主要基于 LLM 评判(DeepSeek-V3),缺乏人类评估来验证评分的可靠性
  • 未探索知识图谱动态更新场景——当底层文档变化时,层次结构需要重建还是可以增量更新?
  • 所有实验使用同一 LLM(DeepSeek-V3)作为生成器,未验证框架在不同参数量级 LLM 上的表现

相关工作与启发

  • GraphRAG → LightRAG → HiRAG → LeanRAG 的演进脉络清晰:从社区图到双层框架到层次聚类到全连通层次网络
  • RAPTOR 的递归摘要树提供了层次检索的早期思路,但缺乏实体间关系建模——LeanRAG 在此基础上补充了关系维度
  • LCA 思想可能启发其他层次检索场景(如文件系统检索、本体论推理)
  • "结构引导检索"的范式对其他结构化知识源(如代码图谱、数学知识库)也有参考价值

评分

  • 新颖性: ⭐⭐⭐⭐ (语义孤岛问题定义新颖,LCA检索策略有创意,但核心技术组件相对标准)
  • 实验充分度: ⭐⭐⭐⭐ (四个数据集、四个RQ、多种消融,但缺乏人类评估)
  • 写作质量: ⭐⭐⭐⭐ (框架图清晰,问题motivation充分,但部分符号定义可更精炼)
  • 价值: ⭐⭐⭐⭐⭐ (RAG是当前热点,本文解决了实际痛点,框架实用且开源)

相关论文