ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use¶
会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
代码: https://huggingface.co/datasets/bytedance-research/ToolHop
领域: Agent / LLM工具使用
关键词: 多跳工具使用, Benchmark, 函数调用, LLM Agent, 工具链
一句话总结¶
提出ToolHop——首个query-driven构建的多跳工具使用评估数据集(995个多跳查询+3912个本地可执行工具),评估14个LLM后发现最强的GPT-4o仅达49.04%准确率,揭示了不同模型家族在工具使用策略上的显著差异。
背景与动机¶
多跳工具使用要求LLM将复杂查询分解为原子子查询→依次调用正确工具→利用中间结果→迭代直到最终答案。这需要理解、推理和函数调用三种能力的有机结合。已有评估数据集存在三大问题:(1) tool-driven构建方式导致工具间缺乏真正依赖关系;(2) 缺乏可验证的标准答案,依赖GPT-4做过程评估引入偏差;(3) 大多是单步工具调用评估,缺少真正的多跳场景。
核心问题¶
如何构建一个可靠的多跳工具使用评估数据集,使其具备多样查询、有意义的工具依赖、可本地执行的工具、详细反馈和可验证答案?
方法详解¶
整体框架¶
Query-driven数据构建:从多跳用户查询出发→工具创建(生成对应工具文档)→文档细化(增加参数复杂度)→代码生成(实现可执行工具函数)。
关键设计¶
-
Query-Driven构建(vs Tool-Driven): 不是先收集工具再模拟查询,而是从真实多跳查询(来自HotpotQA等)出发,为每个子查询定制工具。这保证了工具间的真正依赖性——后一个工具的输入确实依赖前一个工具的输出。
-
本地可执行工具: 3912个工具都有完整的Python代码实现,可本地部署执行。不需要外部API或模拟环境。每个工具平均5.91个参数,包含string/array/boolean/object等多种类型。
-
文档细化: 用GPT-4o扩展初始工具文档,增加可选参数(从3.49→5.91平均参数数),使其更接近真实API的复杂度。还包含异常处理机制,为错误调用提供详细反馈。
-
三种评估场景:
- Direct: 不提供工具,LLM独立回答
- Mandatory: 强制使用工具
- Free Choice: 工具可选,LLM自主决定是否使用
三种调用错误类型¶
- 工具幻觉: 调用不存在的工具
- 参数幻觉: 使用工具未定义的参数
- 参数缺失: 遗漏必需参数
实验关键数据¶
主要模型准确率(Mandatory Tool Use):
| 模型 | Mandatory Acc | Free Choice Acc | Direct Acc |
|---|---|---|---|
| GPT-4o | 49.04 | 44.52 | 44.42 |
| GPT-4-Turbo | 45.43 | 40.20 | 43.42 |
| Claude-3.5-Sonnet | 43.87 | 38.09 | 39.40 |
| Gemini-1.5-Pro | 36.08 | - | 37.39 |
| Qwen2.5-72B | 39.19 | 36.78 | 33.37 |
| LLaMA-3.1-70B | 28.34 | 22.61 | 22.21 |
关键发现:GPT-4o仅49%——多跳工具使用仍然极具挑战性!
关键分析发现¶
- 工具显著提升: Mandatory vs Direct平均提升6.7%,证明工具确实有帮助
- Qwen偏好并行调用: 导致幻觉率更高——并行调用时无法获取前一步的结果
- GPT善用反馈: GPT系列更好地利用工具反馈进行迭代修正
- 工具幻觉率: 不同模型差异大,LLaMA-3.1-8B高达41.1%的查询有工具幻觉
- 跳数越多越难: 3跳→7跳,准确率显著下降
亮点¶
- Query-driven构建方法: 确保工具依赖的真实性,是对tool-driven方法的根本性改进
- 完全可复现: 3912个工具都可本地执行,零外部依赖
- 模型策略对比: 发现不同LLM家族有截然不同的工具使用模式(Qwen并行 vs GPT迭代)
- 挑战性足够: GPT-4o仅49%,为未来研究提供了明确的改进空间
局限性 / 可改进方向¶
- 工具功能相对简单(主要是查询/计算),缺少需要状态管理的复杂工具
- 查询主要来自知识型QA,缺少代码执行、数据分析等实际场景
- 数据构建依赖GPT-4o,可能引入偏差
- 仅评估了文本工具,未涉及多模态工具(如图片分析API)
与相关工作的对比¶
- vs API-Bank/ToolBench: 这些是tool-driven构建,工具依赖非真实的;ToolHop是query-driven
- vs MINT: MINT关注单步工具使用;ToolHop专注多跳
- vs T-Eval: T-Eval依赖GPT-4做过程评估;ToolHop有可验证的标准答案
启发与关联¶
- ToolHop可以作为训练Agent工具使用能力的评估基准
- "Qwen并行调用导致幻觉"的发现对Agent框架设计有重要启发——需要显式的依赖关系管理
- 与AndroidLab结合:GUI操作也是一种"工具使用",多跳GUI操作也面临类似挑战
评分¶
- 新颖性: ⭐⭐⭐⭐ Query-driven构建方法是实质性改进
- 实验充分度: ⭐⭐⭐⭐⭐ 14个模型、5个家族、多维度分析
- 写作质量: ⭐⭐⭐⭐ 构建流程图和数据统计清晰
- 价值: ⭐⭐⭐⭐⭐ 填补了多跳工具使用可靠评估的空白