KG-Hopper: Empowering Compact Open LLMs with Knowledge Graph Reasoning via Reinforcement Learning¶
日期: 2026-03-22
arXiv: 2603.21440
代码: GitHub
领域: LLM推理
关键词: knowledge graph, KBQA, reinforcement learning, multi-hop reasoning, tool use
一句话总结¶
提出 KG-Hopper,用强化学习训练 7B LLM 在单轮推理中完成多跳知识图谱问答——将整个 KG 遍历和推理过程嵌入模型的 "thinking" 阶段,在 8 个 KBQA benchmark 上超越 70B 多步方法并接近 GPT-4o-mini。
研究背景与动机¶
-
领域现状: KBQA(基于知识图谱的问答)通常需要多跳推理——从主题实体出发在 KG 中逐跳遍历才能找到答案。现有方法大多采用"多步流水线"策略,每一步独立调用 LLM 做一次推理。
-
现有痛点: (a) 多步流水线灵活性差——遵循预定义路径,遇到 KG 不完整或走错路时难以回溯;(b) 错误级联——前一步选错实体会直接污染后续所有步骤;(c) 每步独立推理忽略了跨步骤依赖关系。
-
核心矛盾: 多步推理的"逐步独立"假设与多跳问答需要"全局一致"推理之间的矛盾。如果缺失某个中间实体(如 "Yellow Hibiscus"),多步 beam search 会误入歧途且无法纠正。
-
切入角度: Reasoning LLM(如 DeepSeek-R1)的 "thinking" 阶段允许模型在生成答案前进行自我修正——后面的 token 可以修正前面的推理。这种机制天然适配多跳 KBQA 的回溯需求。
-
核心 idea: 把整个多跳 KG 遍历过程压缩到单轮 LLM 推理的 thinking 阶段中,用 RL 训练模型自主调用 KG 检索工具、动态探索路径、支持回溯。
方法详解¶
整体框架¶
输入自然语言问题 + 主题实体 → LLM 在 <think> 阶段自主反复调用 KG 检索工具(<search>entity</search> → <searched_triples>...)→ 综合所有检索信息在 <answer> 中输出最终答案。全程单轮推理,无需多步编排。
关键设计¶
-
KG 检索工具:
- 两阶段检索:先查实体的所有 predicate,再根据问题语义选择最相关的 predicate 获取尾实体
- 模型通过生成
<search>entity</search>特殊 token 自动触发工具调用 - 检索结果以
<searched_triples>标签注入上下文,模型可基于此继续推理
-
Cold Start SFT:
- 用强 LLM few-shot 生成 500 条高质量 CoT 示例(含正确的工具调用格式和推理链)
- 对基座 LLM 做 SFT 学习基本的工具调用模式和输出格式
- 训练时 mask 掉
<triples>内的检索内容,防止模型记忆 KG 事实而非学推理策略
-
四分量复合奖励函数:
- \(R_{search} = \min(0.5 \cdot n, 0.8)\):鼓励使用 KG 工具但设上限防止滥用
- \(R_{format}\):检查
<think>/<search>/<answer>格式是否正确(0.5 or 0) - \(R_{reason}\):用外部 LLM (Llama-3.3-70B) 评估推理过程质量,分数 ∈ (0,1)
- \(R_{answer}\):用 LLM 判断预测答案是否语义匹配 ground truth(0 or 1)
- 总奖励 \(R_{final} = R_{search} + R_{format} + R_{reason} + R_{answer}\)
-
GRPO 优化 + History Resampling:
- 用 Group Relative Policy Optimization 训练,每个问题采样 16 个 rollout
- 从第 2 个 epoch 开始移除简单的单跳问题(课程学习),让模型专注多跳推理
- Mask 检索三元组 token 在 loss 计算中的贡献
实验关键数据¶
主实验(Hits@1)¶
| 方法 | CWQ | WebQSP | WebQ | GrailQA |
|---|---|---|---|---|
| GPT-4o (prompt only) | 41.2 | 51.1 | 36.1 | 36.9 |
| GPT-4o-mini + KG | 55.2 | 71.3 | 64.7 | 63.7 |
| ToG (LLaMA-70B) | 49.8 | 68.2 | — | — |
| KG-Hopper (Qwen-7B) | 57.8 | 73.5 | 67.2 | 74.8 |
消融实验¶
| 配置 | CWQ | WebQSP |
|---|---|---|
| Full KG-Hopper | 最优 | 最优 |
| w/o RL (仅 SFT) | 显著下降 | 下降 |
| w/o 检索奖励 | 下降(工具调用不足) | 下降 |
| w/o 推理奖励 | 下降(推理链质量差) | 下降 |
| w/o History Resampling | 下降(简单样本占主导) | 下降 |
关键发现¶
- 7B 模型通过 RL 训练后一致超越 70B 多步方法(ToG 等),证明"一轮全局推理"优于"多步局部推理"
- RL 比纯 SFT 带来 10-15% 的绝对提升,说明模仿学习不足以学会灵活的推理策略
- 推理奖励和检索奖励缺一不可——前者保证推理链质量,后者保证工具使用频率
亮点与洞察¶
- 单轮 vs 多步范式转换: 把多跳推理从"多步编排"变成"单轮思考",利用 Reasoning LLM 自带的自修正能力实现回溯,设计思路优雅
- 四分量奖励设计精细: 检索、格式、推理、答案四个维度分别引导,避免 reward hacking
- Mask 检索内容 是个好 trick:防止模型在 RL 训练中走捷径记忆 KG 事实,迫使学习通用推理策略
局限性 / 可改进方向¶
- 需要 SPARQL 接口访问 KG,不适用于非结构化知识源
- 推理奖励依赖外部 70B LLM 评估,训练成本不低
- 仅在 Freebase + WikiData 上验证,对领域特定 KG(医学、金融)的泛化能力未知
- 单轮推理的上下文长度有上限,超长推理链可能受限
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 RL + Reasoning LLM 应用到 KBQA 是自然但有效的组合
- 实验充分度: ⭐⭐⭐⭐⭐ 8 个 benchmark、多个基线对比、详细消融
- 价值: ⭐⭐⭐⭐ 7B 模型达到 GPT-4o-mini 水平有实用价值