ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools¶

会议: ICCV 2025
arXiv: 2508.03284
代码: https://github.com/Fugtemypt123/ToolVQA-release
领域: 多模态VLM / 工具使用 / 多步推理
关键词: tool-augmented VQA, multi-step reasoning, dataset, DFS trajectory, LCS matching

一句话总结¶

提出ToolVQA，一个23K样本的多模态工具使用VQA数据集，通过ToolEngine数据生成pipeline（图像引导DFS + LCS示例匹配）从真实图像中构造隐式多步推理问题（平均2.78步），在该数据上微调LLaVA-7B后在5个OOD benchmark上超过GPT-3.5-Turbo，并揭示了当前LFM在参数预测和答案总结方面的瓶颈。

研究背景与动机¶

领域现状：工具增强VQA是提升LFM能力的重要方向。已有数据集如GTA (200样本)、M&m's (1.6K)规模小，ToolBench (126K)是纯文本不涉及视觉，MM-Traj (20K)用合成PDF而非真实图像。
现有痛点：(1) 现有数据集使用合成场景而非真实图像，导致与真实世界需求脱节；(2) 查询中显式提示使用哪个工具（如"using the YouTube API tool"），没有隐式多步推理；(3) 成本高难以规模化——GTA和GAIA依赖昂贵的人工标注。
核心矛盾：真实用户使用工具时不会指定具体调用哪个API，而是提出隐式需要多步推理的自然问题。但自动生成这种高质量多步推理数据很困难——直接让LFM生成往往产生不合理的工具调用链。
本文要解决什么：构建一个大规模、真实场景、隐式多步推理的工具使用VQA数据集，并验证在其上微调小模型的泛化能力。
切入角度：用DFS在工具图上搜索生成推理轨迹（真实调用工具获取结果），再用LCS动态匹配不同示例指导每步决策，最后基于轨迹反向构造问题。
核心idea一句话：用图像引导DFS生成工具使用轨迹+LCS动态示例匹配+反向问题生成，构建首个大规模真实场景多步推理工具使用VQA数据集。

方法详解¶

整体框架（ToolEngine Pipeline）¶

真实图像 → 第一步固定调用ImageCaption/OCR获取图像信息 → DFS在10个工具的图上搜索（GPT-4o作为controller，LCS匹配示例指导每步选择）→ 获得完整工具使用轨迹\(\mathcal{P}\) → 基于轨迹用GPT-4o反向生成QA对 → 人工验证+测试集人工重标注。

关键设计¶

图像引导DFS轨迹构建:
做什么：在工具图上进行深度优先搜索，逐步选择下一个工具并真实调用它获取结果。
核心思路：每步由GPT-4o controller选择工具\(t_i\)和参数\(a_i\)，输入包括图像\(\mathcal{I}\)、当前轨迹\(\mathcal{P}_{i-1}\)和LCS匹配的示例。每次工具调用获得真实结果（如OCR得到实际文字、GoogleSearch得到实际搜索结果），确保推理链与真实世界一致。
设计动机：与"先想问题再找答案"相反，ToolEngine "先探索信息再造问题"。这种\(\mathcal{I} \rightarrow \mathcal{P} \rightarrow \mathcal{Q,A}\)的方式确保了轨迹的合理性——每步都基于真实工具输出做判断。有趣的是，GPT-4o生成的问题连自己都答不对（准确率<40%），说明ToolEngine成功地将简单步骤组合成了困难问题。
LCS动态示例匹配:
做什么：在DFS每步中，用Longest Common Subsequence算法为当前轨迹匹配最相关的人工构造示例。
核心思路：计算当前工具序列\(\mathcal{P}_i\)与示例集\(\mathcal{P}_e\)中每个示例的LCS长度，选top-k最匹配的作为in-context example。随着轨迹延长，匹配的示例也动态变化。
效果：LCS匹配vs无匹配：准确率从27.3%提升到90.8%，平均推理步数从1.1提升到2.38。LCS vs 固定示例：准确率从41.6%提升到90.8%。
设计动机：固定示例无法适应不同图像的不同推理路径。LCS根据当前轨迹动态选择最相似的示例，让controller在每步都有最相关的参考。
10工具、7领域覆盖:
感知类：ImageCaption、OCR、ObjectDetection、RegionDescription
操作类：DrawBox、GoogleSearch
逻辑类：Calculator、Plot、ItemCount
创造类：TextToImage
数据源：真实照片、电商产品图、考试图表等
设计动机：工具高度泛化（如GoogleSearch可以搜索任何知识），不像之前工作为每个子任务绑定固定工具，迫使模型真正理解工具的功能。

训练与评估¶

训练集21K自动生成（90.8%人工验证准确率），测试集2.5K人工重标注
微调LLaVA-7B (LoRA, lr=2e-4, 4xGTX3090, 4000 epochs)
评估模式：end-to-end (直接答题) + step-by-step (评估工具使用准确性)

实验关键数据¶

主实验（ToolVQA测试集）¶

模型	设置	End-to-end Acc%	InstAcc%	ToolAcc%	ArgAcc%	SummAcc%
GPT-4o	VLM	38.29	-	-	-	-
GPT-4o	VLM+tool	34.96	36.5	14.68	8.92	56.1
GPT-3.5-Turbo	LLM+tool	18.37	73.24	30.46	20.08	58.18
LLaVA-7B (原始)	VLM+tool	1.17	16.39	9.43	0	0.01
Tuned LLaVA-7B	VLM+tool	18.80	86.62	61.61	39.34	30.91

OOD泛化（5个未见benchmark）¶

模型	TextVQA	TallyQA	InfoSeek	GTA	TEMPLAMA
GPT-3.5-Turbo	36.3	61.0	11.3	23.62	33.67
LLaVA-7B	41.2	60.1	5.2	12.12	3.06
Tuned LLaVA-7B	47.0	64.3	13.8	33.29	21.43

ToolEngine消融¶

配置	Acc%	R.C. (推理复杂度)	说明
w/o Example + LCS	27.3	1.1	去掉示例和匹配，质量崩溃
w/o LCS (固定示例)	41.6	1.61	固定示例无法适应多样场景
ToolEngine (完整)	90.8	2.38	LCS动态匹配显著提升

关键发现¶

GPT-4o用工具反而更差：VLM+tool (34.96%) < VLM (38.29%)，说明工具引入的噪声超过了信息增益。但微调后的LLaVA-7B呈现VLM (7.21%) < VLM+tool (18.80%)的正向趋势，说明微调学会了有效利用工具。
瓶颈在参数预测和答案总结：微调将InstAcc从16.4%提升到86.6%（指令格式记忆），ToolAcc从9.4%到61.6%（工具选择模式），但ArgAcc只到39.3%、SummAcc只到30.9%——需要真正理解工具返回的新信息。
错误分析：100个错误中主要是参数预测错误（如搜索时漏掉关键词"age"）和答案总结错误（从工具输出中提取错误数字），反映了模型在动态处理工具结果上的不足。
Few-shot ICL与微调互补：微调后的模型仍能从few-shot中获益（18.8%→21.1% @5-shot），但ICL的提升有限且受上下文长度影响。

亮点与洞察¶

"先轨迹后问题"的数据构造范式：不是先想问题再找答案，而是先探索图像信息生成合理轨迹再反向构造问题。这让GPT-4o生成的问题连自己都答不对——说明构造出了真正困难的多步推理任务。
LCS作为trajectory-aware检索：简洁高效，不需要训练，比固定示例效果好一倍以上。这种"根据当前推理进度动态切换参考用例"的思路可以迁移到其他agent数据生成场景。
揭示了VLM+tool的反直觉现象：即使是GPT-4o，加工具后性能也下降，说明当前模型缺乏在动态多轮对话中有效利用工具返回信息的能力。这是agent领域的核心挑战。

局限性 / 可改进方向¶

10个工具虽然泛化性强但数量有限，未来可扩展更多工具类型。
依赖GPT-4o生成数据，成本高且引入GPT-4o的偏差。
微调只在LLaVA-7B上验证，更大或更新的模型效果未知。
错误分析显示微调对"理解工具输出"帮助有限，可能需要更针对性的训练策略。
数据质量90.8%，仍有约10%的筛漏错误样本可能引入噪声。

评分¶

新颖性: ⭐⭐⭐⭐ DFS+LCS的数据构造pipeline新颖，"先轨迹后问题"的范式有创意
实验充分度: ⭐⭐⭐⭐ 主实验+5个OOD benchmark+few-shot+消融+错误分析全面
写作质量: ⭐⭐⭐⭐ 清晰，Table 1的数据集对比直观有力
价值: ⭐⭐⭐⭐ 填补了真实场景多步推理工具使用数据集的空白，揭示了VLM+tool的核心挑战