Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools¶

会议: ACL 2025
arXiv: 2502.04644
代码: https://github.com/theworldofagents/Agentic-Reasoning
领域: LLM Agent / LLM推理
关键词: agentic reasoning, tool-use, mind-map, knowledge graph, web search, DeepSeek-R1

一句话总结¶

Agentic Reasoning 提出了一个将 Web 搜索、代码执行和知识图谱记忆（Mind-Map）三种 Agent 工具集成到 LLM 推理过程中的框架，在 DeepSeek-R1 上将 Humanity's Last Exam 准确率从 9.4% 提升到 23.8%（+14.4%），GPQA 从 71.5% 到 81.2%，接近 OpenAI Deep Research 水平。

研究背景与动机¶

领域现状：DeepSeek-R1、OpenAI o1 等推理模型通过强化学习实现了长链推理，在数学和代码等可验证任务上表现出色，但在知识密集型、开放式问题上仍受限于内部知识。
现有痛点：
推理模型在社科、医学、金融等需要外部知识的领域表现不佳
已有的 search-in-reasoning 方法（如 SearchO1）搜索策略不够精细，返回信息质量不稳定
长链推理容易"忘记"前面步骤的关键信息，推理一致性难以维持
核心矛盾：推理能力强但知识有限 vs 需要外部知识但工具集成可能破坏推理连贯性
本文要解决什么？ 让推理模型在推理过程中无缝调用外部工具（搜索、代码、记忆），不中断推理链
切入角度：人类解决复杂问题也依赖外部工具（搜索引擎、计算器、思维导图），LLM 推理同样需要
核心 idea 一句话：三种 Agent 工具——Web-Search（知识获取）、Code（计算分析）、Mind-Map（结构化记忆）——在推理过程中被动态调用，Mind-Map 用知识图谱维护推理上下文。

方法详解¶

整体框架¶

推理 LLM 在推理序列中插入特殊 token（//）→ 检测到 token 后暂停推理 → 提取查询发送给对应 Agent → Agent 返回结果插入推理链 → 继续推理 → 迭代直到得出最终答案。


关键设计¶

Mind-Map Agent（知识图谱记忆）：
做什么：将推理过程实时构建为结构化知识图谱，作为推理的"外部记忆"
核心思路：用图构建 LLM 从推理链中提取实体和语义关系 → 构建知识图谱 → 社区聚类 → 为每个集群生成摘要
两个功能：(1) 为其他 Agent 提供推理上下文（集群摘要的综合），使搜索和编码更精准 (2) 当推理模型在长链中迷失时，查询 Mind-Map 检索之前的推理结果

设计动机：解决长链推理的"遗忘"问题——推理链越长，前面步骤的信息越容易丢失


Web-Search Agent（智能搜索）：

做什么：四步流程——查询分解→搜索→重排序→RAG
核心思路：(1) 原始查询+Mind-Map上下文 → LLM 分解为多个搜索引擎友好的子查询 (2) Bing 检索 top-20 页面 (3) Cohere Rerank 3.5 重排序，平均相关度 <0.7 则迭代优化查询 (4) 对高相关页面做 RAG 提取信息 (5) LLM 综合多个子查询结果为自然语言片段

设计动机：直接用推理模型的查询做搜索效果差，需要上下文感知的查询分解和质量控制


Code Agent（代码执行）：

做什么：将计算任务委托给专门的编码 LLM（Claude 3.5 Sonnet），避免推理模型自己写代码
核心思路：推理模型发送任务描述 + Mind-Map 上下文 → 编码 LLM 生成并执行代码 → 返回自然语言结果
设计动机：推理模型的注意力应集中在推理上，编码任务分离有助于维持更长更连贯的推理链

实验关键数据¶
主实验¶



基准
DeepSeek-R1
+ Agentic Reasoning
提升




Humanity's Last Exam
9.4%
23.8%
+14.4%


GPQA (All)
71.5%
81.2%
+9.7%


GAIA (Avg)
-
66.13%
-


OpenAI Deep Research (HLE)
26.6%
-
仅差 2.8%



GPQA 各学科¶



学科
DeepSeek-R1
Agentic Reasoning
o3-mini-high




Physics
86.8
94.5
-


Chemistry
56.1
73.7
-


Biology
63.8
80.5
-


All
71.5
81.2
79.7



消融实验¶



配置
HLE Accuracy




Full (Search + Code + Mind-Map)
23.8%


w/o Mind-Map
19.2% (-4.6%)


w/o Code
21.5% (-2.3%)


w/o Search
12.1% (-11.7%)


Base R1 (no tools)
9.4%



关键发现¶

Web-Search 贡献最大（+11.7%）：知识密集型问题中搜索是最关键的外部工具
Mind-Map 贡献显著（+4.6%）：结构化记忆对长链推理的一致性维护至关重要
超越 o3-mini-high 在 GPQA 上：开源模型首次在 PhD 级别 QA 上超过 OpenAI 最强推理模型
化学和生物学提升最大：这两个学科最需要外部知识检索和事实验证
在 GAIA 的 Level 3 任务上接近 OpenAI Deep Research：仅差 2.14%

亮点与洞察¶

Mind-Map 是本文最大的技术创新：用知识图谱作为推理过程的"结构化工作记忆"，比简单的对话历史更有效——因为知识图谱保留了实体间的关系结构。可迁移到任何需要长链推理的场景
查询分解+质量控制的搜索策略：不是简单地搜一次，而是分解查询→搜索→重排序→质量阈值→迭代优化，这个流程可直接复用
"推理归推理，编码归编码"的分离设计：避免推理模型被编码任务干扰，保持推理连贯性——这个设计哲学很实用

局限性 / 可改进方向¶

计算成本高：多次调用 DeepSeek-V3（搜索）+ Claude 3.5（编码）+ DeepSeek-R1（推理），推理一个问题可能需要多次 LLM 调用
Mind-Map 的知识图谱构建质量依赖辅助 LLM：如果图构建不准确，记忆反而有害
仅在英文基准上测试：多语言能力未验证
Pass@1 结果：多次采样可能进一步提升性能

相关工作与启发¶

vs SearchO1 (Li et al., 2025)：SearchO1 只集成搜索，Agentic Reasoning 额外加入 Mind-Map 和 Code，在 GPQA 上高约 6.6%
vs OpenAI Deep Research：本文用开源模型接近了商业系统水平，HLE 仅差 2.8%
vs GraphRAG：GraphRAG 在索引阶段构建知识图谱用于检索，本文的 Mind-Map 在推理过程中动态构建用于记忆——目的和时机不同

评分¶

新颖性: ⭐⭐⭐⭐ Mind-Map 知识图谱记忆的idea新颖，三Agent组合设计合理
实验充分度: ⭐⭐⭐⭐⭐ HLE+GPQA+GAIA+深度研究任务，消融实验详细
写作质量: ⭐⭐⭐⭐ 框架描述清晰，案例研究生动
价值: ⭐⭐⭐⭐⭐ 开源方案接近 OpenAI Deep Research 水平，实用价值极高

基准	DeepSeek-R1	+ Agentic Reasoning	提升
Humanity's Last Exam	9.4%	23.8%	+14.4%
GPQA (All)	71.5%	81.2%	+9.7%
GAIA (Avg)	-	66.13%	-
OpenAI Deep Research (HLE)	26.6%	-	仅差 2.8%

学科	DeepSeek-R1	Agentic Reasoning	o3-mini-high
Physics	86.8	94.5	-
Chemistry	56.1	73.7	-
Biology	63.8	80.5	-
All	71.5	81.2	79.7

配置	HLE Accuracy
Full (Search + Code + Mind-Map)	23.8%
w/o Mind-Map	19.2% (-4.6%)
w/o Code	21.5% (-2.3%)
w/o Search	12.1% (-11.7%)
Base R1 (no tools)	9.4%