跳转至

ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

会议: ICCV 2025
arXiv: 2508.03284
代码: https://github.com/Fugtemypt123/ToolVQA-release
领域: 多模态VLM / 工具使用 / 多步推理
关键词: tool-augmented VQA, multi-step reasoning, dataset, DFS trajectory, LCS matching

一句话总结

提出ToolVQA,一个23K样本的多模态工具使用VQA数据集,通过ToolEngine数据生成pipeline(图像引导DFS + LCS示例匹配)从真实图像中构造隐式多步推理问题(平均2.78步),在该数据上微调LLaVA-7B后在5个OOD benchmark上超过GPT-3.5-Turbo,并揭示了当前LFM在参数预测和答案总结方面的瓶颈。

研究背景与动机

  1. 领域现状:工具增强VQA是提升LFM能力的重要方向。已有数据集如GTA (200样本)、M&m's (1.6K)规模小,ToolBench (126K)是纯文本不涉及视觉,MM-Traj (20K)用合成PDF而非真实图像。
  2. 现有痛点:(1) 现有数据集使用合成场景而非真实图像,导致与真实世界需求脱节;(2) 查询中显式提示使用哪个工具(如"using the YouTube API tool"),没有隐式多步推理;(3) 成本高难以规模化——GTA和GAIA依赖昂贵的人工标注。
  3. 核心矛盾:真实用户使用工具时不会指定具体调用哪个API,而是提出隐式需要多步推理的自然问题。但自动生成这种高质量多步推理数据很困难——直接让LFM生成往往产生不合理的工具调用链。
  4. 本文要解决什么:构建一个大规模、真实场景、隐式多步推理的工具使用VQA数据集,并验证在其上微调小模型的泛化能力。
  5. 切入角度:用DFS在工具图上搜索生成推理轨迹(真实调用工具获取结果),再用LCS动态匹配不同示例指导每步决策,最后基于轨迹反向构造问题。
  6. 核心idea一句话:用图像引导DFS生成工具使用轨迹+LCS动态示例匹配+反向问题生成,构建首个大规模真实场景多步推理工具使用VQA数据集。

方法详解

整体框架(ToolEngine Pipeline)

真实图像 → 第一步固定调用ImageCaption/OCR获取图像信息 → DFS在10个工具的图上搜索(GPT-4o作为controller,LCS匹配示例指导每步选择)→ 获得完整工具使用轨迹\(\mathcal{P}\) → 基于轨迹用GPT-4o反向生成QA对 → 人工验证+测试集人工重标注。

关键设计

  1. 图像引导DFS轨迹构建:
  2. 做什么:在工具图上进行深度优先搜索,逐步选择下一个工具并真实调用它获取结果。
  3. 核心思路:每步由GPT-4o controller选择工具\(t_i\)和参数\(a_i\),输入包括图像\(\mathcal{I}\)、当前轨迹\(\mathcal{P}_{i-1}\)和LCS匹配的示例。每次工具调用获得真实结果(如OCR得到实际文字、GoogleSearch得到实际搜索结果),确保推理链与真实世界一致。
  4. 设计动机:与"先想问题再找答案"相反,ToolEngine "先探索信息再造问题"。这种\(\mathcal{I} \rightarrow \mathcal{P} \rightarrow \mathcal{Q,A}\)的方式确保了轨迹的合理性——每步都基于真实工具输出做判断。有趣的是,GPT-4o生成的问题连自己都答不对(准确率<40%),说明ToolEngine成功地将简单步骤组合成了困难问题。

  5. LCS动态示例匹配:

  6. 做什么:在DFS每步中,用Longest Common Subsequence算法为当前轨迹匹配最相关的人工构造示例。
  7. 核心思路:计算当前工具序列\(\mathcal{P}_i\)与示例集\(\mathcal{P}_e\)中每个示例的LCS长度,选top-k最匹配的作为in-context example。随着轨迹延长,匹配的示例也动态变化。
  8. 效果:LCS匹配vs无匹配:准确率从27.3%提升到90.8%,平均推理步数从1.1提升到2.38。LCS vs 固定示例:准确率从41.6%提升到90.8%。
  9. 设计动机:固定示例无法适应不同图像的不同推理路径。LCS根据当前轨迹动态选择最相似的示例,让controller在每步都有最相关的参考。

  10. 10工具、7领域覆盖:

  11. 感知类:ImageCaption、OCR、ObjectDetection、RegionDescription
  12. 操作类:DrawBox、GoogleSearch
  13. 逻辑类:Calculator、Plot、ItemCount
  14. 创造类:TextToImage
  15. 数据源:真实照片、电商产品图、考试图表等
  16. 设计动机:工具高度泛化(如GoogleSearch可以搜索任何知识),不像之前工作为每个子任务绑定固定工具,迫使模型真正理解工具的功能。

训练与评估

  • 训练集21K自动生成(90.8%人工验证准确率),测试集2.5K人工重标注
  • 微调LLaVA-7B (LoRA, lr=2e-4, 4xGTX3090, 4000 epochs)
  • 评估模式:end-to-end (直接答题) + step-by-step (评估工具使用准确性)

实验关键数据

主实验(ToolVQA测试集)

模型 设置 End-to-end Acc% InstAcc% ToolAcc% ArgAcc% SummAcc%
GPT-4o VLM 38.29 - - - -
GPT-4o VLM+tool 34.96 36.5 14.68 8.92 56.1
GPT-3.5-Turbo LLM+tool 18.37 73.24 30.46 20.08 58.18
LLaVA-7B (原始) VLM+tool 1.17 16.39 9.43 0 0.01
Tuned LLaVA-7B VLM+tool 18.80 86.62 61.61 39.34 30.91

OOD泛化(5个未见benchmark)

模型 TextVQA TallyQA InfoSeek GTA TEMPLAMA
GPT-3.5-Turbo 36.3 61.0 11.3 23.62 33.67
LLaVA-7B 41.2 60.1 5.2 12.12 3.06
Tuned LLaVA-7B 47.0 64.3 13.8 33.29 21.43

ToolEngine消融

配置 Acc% R.C. (推理复杂度) 说明
w/o Example + LCS 27.3 1.1 去掉示例和匹配,质量崩溃
w/o LCS (固定示例) 41.6 1.61 固定示例无法适应多样场景
ToolEngine (完整) 90.8 2.38 LCS动态匹配显著提升

关键发现

  • GPT-4o用工具反而更差:VLM+tool (34.96%) < VLM (38.29%),说明工具引入的噪声超过了信息增益。但微调后的LLaVA-7B呈现VLM (7.21%) < VLM+tool (18.80%)的正向趋势,说明微调学会了有效利用工具。
  • 瓶颈在参数预测和答案总结:微调将InstAcc从16.4%提升到86.6%(指令格式记忆),ToolAcc从9.4%到61.6%(工具选择模式),但ArgAcc只到39.3%、SummAcc只到30.9%——需要真正理解工具返回的新信息。
  • 错误分析:100个错误中主要是参数预测错误(如搜索时漏掉关键词"age")和答案总结错误(从工具输出中提取错误数字),反映了模型在动态处理工具结果上的不足。
  • Few-shot ICL与微调互补:微调后的模型仍能从few-shot中获益(18.8%→21.1% @5-shot),但ICL的提升有限且受上下文长度影响。

亮点与洞察

  • "先轨迹后问题"的数据构造范式:不是先想问题再找答案,而是先探索图像信息生成合理轨迹再反向构造问题。这让GPT-4o生成的问题连自己都答不对——说明构造出了真正困难的多步推理任务。
  • LCS作为trajectory-aware检索:简洁高效,不需要训练,比固定示例效果好一倍以上。这种"根据当前推理进度动态切换参考用例"的思路可以迁移到其他agent数据生成场景。
  • 揭示了VLM+tool的反直觉现象:即使是GPT-4o,加工具后性能也下降,说明当前模型缺乏在动态多轮对话中有效利用工具返回信息的能力。这是agent领域的核心挑战。

局限性 / 可改进方向

  • 10个工具虽然泛化性强但数量有限,未来可扩展更多工具类型。
  • 依赖GPT-4o生成数据,成本高且引入GPT-4o的偏差。
  • 微调只在LLaVA-7B上验证,更大或更新的模型效果未知。
  • 错误分析显示微调对"理解工具输出"帮助有限,可能需要更针对性的训练策略。
  • 数据质量90.8%,仍有约10%的筛漏错误样本可能引入噪声。

相关工作与启发

  • vs GTA: GTA只有200样本且用合成图像,ToolVQA有23K真实图像。GTA上Tuned LLaVA-7B达33.29%远超GPT-3.5-Turbo的23.62%。
  • vs MM-Traj: MM-Traj用合成PDF、答案未验证。ToolVQA用真实图像、答案人工验证90.8%、推理步数更长(2.38 vs 1.77)。
  • vs MMAT-1M(同批前文): MMAT-1M关注agent tuning但工具固定为5个预定义算子,ToolVQA有10个真实部署的工具且支持开放式搜索。两者互补——MMAT-1M做通用reasoning+工具, ToolVQA做复杂多步推理+工具。

评分

  • 新颖性: ⭐⭐⭐⭐ DFS+LCS的数据构造pipeline新颖,"先轨迹后问题"的范式有创意
  • 实验充分度: ⭐⭐⭐⭐ 主实验+5个OOD benchmark+few-shot+消融+错误分析全面
  • 写作质量: ⭐⭐⭐⭐ 清晰,Table 1的数据集对比直观有力
  • 价值: ⭐⭐⭐⭐ 填补了真实场景多步推理工具使用数据集的空白,揭示了VLM+tool的核心挑战