跳转至

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

会议: ICLR 2026

arXiv: 2505.21413
代码: 待确认
领域: Agent / 工具创建
关键词: tool creation, reference-guided, knowledge-intensive reasoning, executable tools, hierarchical toolbox

一句话总结

提出 RefTool 框架基于外部参考资料(教材、知识片段)自动创建可执行 Python 工具,解决了现有工具创建方法依赖 LLM 内在知识在专业领域失败的问题,在因果推理、物理和化学任务上平均超过已有方法 12.3%。

研究背景与动机

  1. 领域现状:LLM 工具创建(tool creation)让模型在推理时动态生成和调用工具,比预定义工具集更灵活。现有方法(如 CRAFT、TroVE)依赖 LLM 的内在知识生成工具。
  2. 现有痛点:LLM 的内在知识在专业领域(因果推理、量子物理、有机化学)不可靠,导致生成的工具含有错误的公式或逻辑。
  3. 核心矛盾:工具创建需要精确的领域知识,而 LLM 在专业领域的知识可能不准确或不完整。
  4. 本文要解决:如何利用外部权威参考资料(教材)作为知识来源来指导工具创建?
  5. 切入角度:利用教材的自然章节-小节结构组织工具层次,从每个小节提取可执行的 Python 函数。
  6. 核心idea:参考资料 → 工具创建 + 层次化 toolbox → 层次化检索 → 推理。

方法详解

整体框架

两阶段:① 工具创建——从教材章节提取知识并生成可执行 Python 工具,通过执行测试验证,组织为层次化 toolbox;② 工具利用——推理时层次化检索(先选类别再选工具),支持 PoT 单轮和 ReAct 多轮推理。

关键设计

  1. 参考资料引导的工具创建:
  2. 从教材的每个 section 生成工具,每个工具包含:描述、Python 函数、使用示例
  3. 通过执行测试验证正确性(73% 一次通过,额外 14% 修复后通过)
  4. 利用教材分章分节的自然结构构建两级层次(章→节→工具)
  5. 设计动机:教材是人类验证过的知识源,比 LLM 内在知识更可靠

  6. 层次化工具检索:

  7. 做什么:推理时高效找到相关工具
  8. 两步检索:先从章级类别中选择相关类别 → 再从类别内选择具体工具
  9. 减少搜索空间,提高检索精度
  10. 非结构化参考资料由 LLM 自动构建层次

  11. 推理模式:

  12. PoT (Program of Thought):单轮生成包含工具调用的代码
  13. ReAct:多轮交互式推理,逐步检索和调用工具
  14. 两种模式互补:PoT 更高效,ReAct 更灵活

实验关键数据

主实验

任务 RefTool+PoT (GPT-4o) TroVE 领域特定方法
因果推理 (QRData) 46.8% 36.4%
物理 (TheoremQA) 57.9% Physics Reasoner
化学 (SciBench) 66.4% ChemAgent

消融实验

配置 效果
无参考资料(纯 LLM 知识) 显著下降
无层次结构(平铺检索) 检索精度降低
无执行测试验证 错误工具比例增加

关键发现

  • 平均超过工具创建方法 13.0%,超过领域特定方法 10.2%
  • 73% 工具一次生成即通过验证——参考资料质量保证了工具质量
  • 层次化检索比平铺检索更有效——利用教材结构降低搜索空间
  • RefTool 在因果推理上的提升最大(+10.4%),说明 LLM 内在知识在因果领域最薄弱

亮点与洞察

  • 将教材直接转化为工具的思路非常自然——人类学习新领域也是先学教材再应用
  • 73% 一次通过验证说明教材知识到代码的转化比想象中更可靠
  • 层次化 toolbox利用了教材的自然结构——不需要额外的知识工程
  • 可推广到任何有结构化参考资料的专业领域

局限性 / 可改进方向

  • 依赖高质量参考资料的可获取性——若无好教材则无法使用
  • 每个 section 仅生成最多 2 个工具,信息密集的章节可能遗漏重要功能
  • 工具层次结构固定为两级,复杂知识体系可能需要更灵活的组织
  • 未探索工具间的组合和复用(如一个工具调用另一个工具)

相关工作与启发

  • vs CRAFT/TroVE: 依赖 LLM 内在知识,在专业领域不可靠;RefTool 用外部参考弥补
  • vs RAG: RAG 检索原始文本让 LLM 推理,RefTool 将知识预编译为可执行代码——执行比推理更精确
  • vs chainSTORM/domain-specific agents: 领域特定方法需要人工设计,RefTool 自动从教材生成
  • 可启发"知识编译"范式:将文本知识预编译为可执行程序,减少推理时的认知负担

补充讨论

工具创建 vs 直接 RAG

工具创建的优势在于“编译”而非“解释”——将知识预编译为可执行代码后,推理时只需调用函数而非重新理解文本。这对需要精确计算的任务(物理公式、统计检验)特别有效,因为 LLM 在计算上不可靠但执行代码是确定的。

教材结构的利用

教材的章-节结构是人类知识组织的自然产物,直接作为工具层次使用避免了额外的知识工程。

这种思路可以推广到任何有结构化文档的领域(如 API 文档、法律法规、医学指南),具有很好的通用性。

评分

  • 新颖性: ⭐⭐⭐⭐ 参考资料→工具的思路自然且有效
  • 实验充分度: ⭐⭐⭐⭐ 三个专业领域验证,对比充分
  • 写作质量: ⭐⭐⭐⭐ 框架设计清晰
  • 价值: ⭐⭐⭐⭐ 为专业领域的工具创建提供了实用范式