RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning¶

会议: ICLR 2026

arXiv: 2505.21413
代码: 待确认
领域: Agent / 工具创建
关键词: tool creation, reference-guided, knowledge-intensive reasoning, executable tools, hierarchical toolbox

一句话总结¶

提出 RefTool 框架基于外部参考资料（教材、知识片段）自动创建可执行 Python 工具，解决了现有工具创建方法依赖 LLM 内在知识在专业领域失败的问题，在因果推理、物理和化学任务上平均超过已有方法 12.3%。

研究背景与动机¶

领域现状：LLM 工具创建（tool creation）让模型在推理时动态生成和调用工具，比预定义工具集更灵活。现有方法（如 CRAFT、TroVE）依赖 LLM 的内在知识生成工具。
现有痛点：LLM 的内在知识在专业领域（因果推理、量子物理、有机化学）不可靠，导致生成的工具含有错误的公式或逻辑。
核心矛盾：工具创建需要精确的领域知识，而 LLM 在专业领域的知识可能不准确或不完整。
本文要解决：如何利用外部权威参考资料（教材）作为知识来源来指导工具创建？
切入角度：利用教材的自然章节-小节结构组织工具层次，从每个小节提取可执行的 Python 函数。
核心idea：参考资料 → 工具创建 + 层次化 toolbox → 层次化检索 → 推理。

方法详解¶

整体框架¶

两阶段：① 工具创建——从教材章节提取知识并生成可执行 Python 工具，通过执行测试验证，组织为层次化 toolbox；② 工具利用——推理时层次化检索（先选类别再选工具），支持 PoT 单轮和 ReAct 多轮推理。

关键设计¶

参考资料引导的工具创建:
从教材的每个 section 生成工具，每个工具包含：描述、Python 函数、使用示例
通过执行测试验证正确性（73% 一次通过，额外 14% 修复后通过）
利用教材分章分节的自然结构构建两级层次（章→节→工具）
设计动机：教材是人类验证过的知识源，比 LLM 内在知识更可靠
层次化工具检索:
做什么：推理时高效找到相关工具
两步检索：先从章级类别中选择相关类别 → 再从类别内选择具体工具
减少搜索空间，提高检索精度
非结构化参考资料由 LLM 自动构建层次
推理模式:
PoT (Program of Thought)：单轮生成包含工具调用的代码
ReAct：多轮交互式推理，逐步检索和调用工具
两种模式互补：PoT 更高效，ReAct 更灵活

实验关键数据¶

主实验¶

任务	RefTool+PoT (GPT-4o)	TroVE	领域特定方法
因果推理 (QRData)	46.8%	36.4%	—
物理 (TheoremQA)	57.9%	—	Physics Reasoner
化学 (SciBench)	66.4%	—	ChemAgent

消融实验¶

配置	效果
无参考资料（纯 LLM 知识）	显著下降
无层次结构（平铺检索）	检索精度降低
无执行测试验证	错误工具比例增加

关键发现¶

平均超过工具创建方法 13.0%，超过领域特定方法 10.2%
73% 工具一次生成即通过验证——参考资料质量保证了工具质量
层次化检索比平铺检索更有效——利用教材结构降低搜索空间
RefTool 在因果推理上的提升最大（+10.4%），说明 LLM 内在知识在因果领域最薄弱

亮点与洞察¶

将教材直接转化为工具的思路非常自然——人类学习新领域也是先学教材再应用
73% 一次通过验证说明教材知识到代码的转化比想象中更可靠
层次化 toolbox利用了教材的自然结构——不需要额外的知识工程
可推广到任何有结构化参考资料的专业领域

局限性 / 可改进方向¶

依赖高质量参考资料的可获取性——若无好教材则无法使用
每个 section 仅生成最多 2 个工具，信息密集的章节可能遗漏重要功能
工具层次结构固定为两级，复杂知识体系可能需要更灵活的组织
未探索工具间的组合和复用（如一个工具调用另一个工具）

补充讨论¶

工具创建 vs 直接 RAG¶

工具创建的优势在于“编译”而非“解释”——将知识预编译为可执行代码后，推理时只需调用函数而非重新理解文本。这对需要精确计算的任务（物理公式、统计检验）特别有效，因为 LLM 在计算上不可靠但执行代码是确定的。

教材结构的利用¶

教材的章-节结构是人类知识组织的自然产物，直接作为工具层次使用避免了额外的知识工程。

这种思路可以推广到任何有结构化文档的领域（如 API 文档、法律法规、医学指南），具有很好的通用性。

评分¶

新颖性: ⭐⭐⭐⭐ 参考资料→工具的思路自然且有效
实验充分度: ⭐⭐⭐⭐ 三个专业领域验证，对比充分
写作质量: ⭐⭐⭐⭐ 框架设计清晰
价值: ⭐⭐⭐⭐ 为专业领域的工具创建提供了实用范式