ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use¶

会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
代码: https://huggingface.co/datasets/bytedance-research/ToolHop
领域: Agent / LLM工具使用
关键词: 多跳工具使用, Benchmark, 函数调用, LLM Agent, 工具链

一句话总结¶

提出ToolHop——首个query-driven构建的多跳工具使用评估数据集（995个多跳查询+3912个本地可执行工具），评估14个LLM后发现最强的GPT-4o仅达49.04%准确率，揭示了不同模型家族在工具使用策略上的显著差异。

背景与动机¶

多跳工具使用要求LLM将复杂查询分解为原子子查询→依次调用正确工具→利用中间结果→迭代直到最终答案。这需要理解、推理和函数调用三种能力的有机结合。已有评估数据集存在三大问题：(1) tool-driven构建方式导致工具间缺乏真正依赖关系；(2) 缺乏可验证的标准答案，依赖GPT-4做过程评估引入偏差；(3) 大多是单步工具调用评估，缺少真正的多跳场景。

核心问题¶

如何构建一个可靠的多跳工具使用评估数据集，使其具备多样查询、有意义的工具依赖、可本地执行的工具、详细反馈和可验证答案？

方法详解¶

整体框架¶

Query-driven数据构建：从多跳用户查询出发→工具创建（生成对应工具文档）→文档细化（增加参数复杂度）→代码生成（实现可执行工具函数）。

关键设计¶

Query-Driven构建（vs Tool-Driven）: 不是先收集工具再模拟查询，而是从真实多跳查询（来自HotpotQA等）出发，为每个子查询定制工具。这保证了工具间的真正依赖性——后一个工具的输入确实依赖前一个工具的输出。
本地可执行工具: 3912个工具都有完整的Python代码实现，可本地部署执行。不需要外部API或模拟环境。每个工具平均5.91个参数，包含string/array/boolean/object等多种类型。
文档细化: 用GPT-4o扩展初始工具文档，增加可选参数（从3.49→5.91平均参数数），使其更接近真实API的复杂度。还包含异常处理机制，为错误调用提供详细反馈。
三种评估场景:
Direct: 不提供工具，LLM独立回答
Mandatory: 强制使用工具
Free Choice: 工具可选，LLM自主决定是否使用

三种调用错误类型¶

工具幻觉: 调用不存在的工具
参数幻觉: 使用工具未定义的参数
参数缺失: 遗漏必需参数

实验关键数据¶

主要模型准确率（Mandatory Tool Use）:

模型	Mandatory Acc	Free Choice Acc	Direct Acc
GPT-4o	49.04	44.52	44.42
GPT-4-Turbo	45.43	40.20	43.42
Claude-3.5-Sonnet	43.87	38.09	39.40
Gemini-1.5-Pro	36.08	-	37.39
Qwen2.5-72B	39.19	36.78	33.37
LLaMA-3.1-70B	28.34	22.61	22.21

关键发现：GPT-4o仅49%——多跳工具使用仍然极具挑战性！

关键分析发现¶

工具显著提升: Mandatory vs Direct平均提升6.7%，证明工具确实有帮助
Qwen偏好并行调用: 导致幻觉率更高——并行调用时无法获取前一步的结果
GPT善用反馈: GPT系列更好地利用工具反馈进行迭代修正
工具幻觉率: 不同模型差异大，LLaMA-3.1-8B高达41.1%的查询有工具幻觉
跳数越多越难: 3跳→7跳，准确率显著下降

亮点¶

Query-driven构建方法: 确保工具依赖的真实性，是对tool-driven方法的根本性改进
完全可复现: 3912个工具都可本地执行，零外部依赖
模型策略对比: 发现不同LLM家族有截然不同的工具使用模式（Qwen并行 vs GPT迭代）
挑战性足够: GPT-4o仅49%，为未来研究提供了明确的改进空间

局限性 / 可改进方向¶

工具功能相对简单（主要是查询/计算），缺少需要状态管理的复杂工具
查询主要来自知识型QA，缺少代码执行、数据分析等实际场景
数据构建依赖GPT-4o，可能引入偏差
仅评估了文本工具，未涉及多模态工具（如图片分析API）

与相关工作的对比¶

vs API-Bank/ToolBench: 这些是tool-driven构建，工具依赖非真实的；ToolHop是query-driven
vs MINT: MINT关注单步工具使用；ToolHop专注多跳
vs T-Eval: T-Eval依赖GPT-4做过程评估；ToolHop有可验证的标准答案

启发与关联¶

ToolHop可以作为训练Agent工具使用能力的评估基准
"Qwen并行调用导致幻觉"的发现对Agent框架设计有重要启发——需要显式的依赖关系管理
与AndroidLab结合：GUI操作也是一种"工具使用"，多跳GUI操作也面临类似挑战

评分¶

新颖性: ⭐⭐⭐⭐ Query-driven构建方法是实质性改进
实验充分度: ⭐⭐⭐⭐⭐ 14个模型、5个家族、多维度分析
写作质量: ⭐⭐⭐⭐ 构建流程图和数据统计清晰
价值: ⭐⭐⭐⭐⭐ 填补了多跳工具使用可靠评估的空白