Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools¶
会议: ACL 2025
arXiv: 2502.04644
代码: https://github.com/theworldofagents/Agentic-Reasoning
领域: LLM Agent / LLM推理
关键词: agentic reasoning, tool-use, mind-map, knowledge graph, web search, DeepSeek-R1
一句话总结¶
Agentic Reasoning 提出了一个将 Web 搜索、代码执行和知识图谱记忆(Mind-Map)三种 Agent 工具集成到 LLM 推理过程中的框架,在 DeepSeek-R1 上将 Humanity's Last Exam 准确率从 9.4% 提升到 23.8%(+14.4%),GPQA 从 71.5% 到 81.2%,接近 OpenAI Deep Research 水平。
研究背景与动机¶
- 领域现状:DeepSeek-R1、OpenAI o1 等推理模型通过强化学习实现了长链推理,在数学和代码等可验证任务上表现出色,但在知识密集型、开放式问题上仍受限于内部知识。
- 现有痛点:
- 推理模型在社科、医学、金融等需要外部知识的领域表现不佳
- 已有的 search-in-reasoning 方法(如 SearchO1)搜索策略不够精细,返回信息质量不稳定
- 长链推理容易"忘记"前面步骤的关键信息,推理一致性难以维持
- 核心矛盾:推理能力强但知识有限 vs 需要外部知识但工具集成可能破坏推理连贯性
- 本文要解决什么? 让推理模型在推理过程中无缝调用外部工具(搜索、代码、记忆),不中断推理链
- 切入角度:人类解决复杂问题也依赖外部工具(搜索引擎、计算器、思维导图),LLM 推理同样需要
- 核心 idea 一句话:三种 Agent 工具——Web-Search(知识获取)、Code(计算分析)、Mind-Map(结构化记忆)——在推理过程中被动态调用,Mind-Map 用知识图谱维护推理上下文。
方法详解¶
整体框架¶
推理 LLM 在推理序列中插入特殊 token(/
关键设计¶
- Mind-Map Agent(知识图谱记忆):
- 做什么:将推理过程实时构建为结构化知识图谱,作为推理的"外部记忆"
- 核心思路:用图构建 LLM 从推理链中提取实体和语义关系 → 构建知识图谱 → 社区聚类 → 为每个集群生成摘要
- 两个功能:(1) 为其他 Agent 提供推理上下文(集群摘要的综合),使搜索和编码更精准 (2) 当推理模型在长链中迷失时,查询 Mind-Map 检索之前的推理结果
-
设计动机:解决长链推理的"遗忘"问题——推理链越长,前面步骤的信息越容易丢失
-
Web-Search Agent(智能搜索):
- 做什么:四步流程——查询分解→搜索→重排序→RAG
- 核心思路:(1) 原始查询+Mind-Map上下文 → LLM 分解为多个搜索引擎友好的子查询 (2) Bing 检索 top-20 页面 (3) Cohere Rerank 3.5 重排序,平均相关度 <0.7 则迭代优化查询 (4) 对高相关页面做 RAG 提取信息 (5) LLM 综合多个子查询结果为自然语言片段
-
设计动机:直接用推理模型的查询做搜索效果差,需要上下文感知的查询分解和质量控制
-
Code Agent(代码执行):
- 做什么:将计算任务委托给专门的编码 LLM(Claude 3.5 Sonnet),避免推理模型自己写代码
- 核心思路:推理模型发送任务描述 + Mind-Map 上下文 → 编码 LLM 生成并执行代码 → 返回自然语言结果
- 设计动机:推理模型的注意力应集中在推理上,编码任务分离有助于维持更长更连贯的推理链
实验关键数据¶
主实验¶
| 基准 | DeepSeek-R1 | + Agentic Reasoning | 提升 |
|---|---|---|---|
| Humanity's Last Exam | 9.4% | 23.8% | +14.4% |
| GPQA (All) | 71.5% | 81.2% | +9.7% |
| GAIA (Avg) | - | 66.13% | - |
| OpenAI Deep Research (HLE) | 26.6% | - | 仅差 2.8% |
GPQA 各学科¶
| 学科 | DeepSeek-R1 | Agentic Reasoning | o3-mini-high |
|---|---|---|---|
| Physics | 86.8 | 94.5 | - |
| Chemistry | 56.1 | 73.7 | - |
| Biology | 63.8 | 80.5 | - |
| All | 71.5 | 81.2 | 79.7 |
消融实验¶
| 配置 | HLE Accuracy |
|---|---|
| Full (Search + Code + Mind-Map) | 23.8% |
| w/o Mind-Map | 19.2% (-4.6%) |
| w/o Code | 21.5% (-2.3%) |
| w/o Search | 12.1% (-11.7%) |
| Base R1 (no tools) | 9.4% |
关键发现¶
- Web-Search 贡献最大(+11.7%):知识密集型问题中搜索是最关键的外部工具
- Mind-Map 贡献显著(+4.6%):结构化记忆对长链推理的一致性维护至关重要
- 超越 o3-mini-high 在 GPQA 上:开源模型首次在 PhD 级别 QA 上超过 OpenAI 最强推理模型
- 化学和生物学提升最大:这两个学科最需要外部知识检索和事实验证
- 在 GAIA 的 Level 3 任务上接近 OpenAI Deep Research:仅差 2.14%
亮点与洞察¶
- Mind-Map 是本文最大的技术创新:用知识图谱作为推理过程的"结构化工作记忆",比简单的对话历史更有效——因为知识图谱保留了实体间的关系结构。可迁移到任何需要长链推理的场景
- 查询分解+质量控制的搜索策略:不是简单地搜一次,而是分解查询→搜索→重排序→质量阈值→迭代优化,这个流程可直接复用
- "推理归推理,编码归编码"的分离设计:避免推理模型被编码任务干扰,保持推理连贯性——这个设计哲学很实用
局限性 / 可改进方向¶
- 计算成本高:多次调用 DeepSeek-V3(搜索)+ Claude 3.5(编码)+ DeepSeek-R1(推理),推理一个问题可能需要多次 LLM 调用
- Mind-Map 的知识图谱构建质量依赖辅助 LLM:如果图构建不准确,记忆反而有害
- 仅在英文基准上测试:多语言能力未验证
- Pass@1 结果:多次采样可能进一步提升性能
相关工作与启发¶
- vs SearchO1 (Li et al., 2025):SearchO1 只集成搜索,Agentic Reasoning 额外加入 Mind-Map 和 Code,在 GPQA 上高约 6.6%
- vs OpenAI Deep Research:本文用开源模型接近了商业系统水平,HLE 仅差 2.8%
- vs GraphRAG:GraphRAG 在索引阶段构建知识图谱用于检索,本文的 Mind-Map 在推理过程中动态构建用于记忆——目的和时机不同
评分¶
- 新颖性: ⭐⭐⭐⭐ Mind-Map 知识图谱记忆的idea新颖,三Agent组合设计合理
- 实验充分度: ⭐⭐⭐⭐⭐ HLE+GPQA+GAIA+深度研究任务,消融实验详细
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,案例研究生动
- 价值: ⭐⭐⭐⭐⭐ 开源方案接近 OpenAI Deep Research 水平,实用价值极高