跳转至

MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning

会议: ICCV 2025
arXiv: 2507.21924
代码: https://github.com/VIS-MPU-Agent/MMAT-1M
领域: 多模态VLM / Agent
关键词: multimodal agent tuning, chain-of-thought, reflection, tool usage, reasoning dataset

一句话总结

提出首个百万规模的多模态agent调优数据集MMAT-1M,通过四阶段数据引擎(基础数据→推理轨迹生成→反思纠错→格式整合)为MLLM注入CoT推理、工具调用和反思能力,在InternVL2.5-8B上平均提升2.7%,RAG任务上提升8.8%。

研究背景与动机

  1. 领域现状:LLM通过agent tuning已经在CoT推理和工具使用上取得显著进展,但多模态领域仍缺少大规模、高质量的agent调优数据集。现有的多模态agent相关数据集(如LLaVA-Plus 117K、MM-Traj 20K)规模小、分布单一。
  2. 现有痛点:现有多模态agent数据集有三个关键缺陷:(1) 数据分布单一,无法提升模型在多样benchmark上的表现;(2) 缺乏对视觉工具引入错误的反思机制,模型鲁棒性差;(3) 推理和工具使用机制不够灵活,实际应用可行性低。
  3. 核心矛盾:多模态大模型需要同时具备推理能力、工具调用能力和错误纠正能力,但现有数据集无法同时覆盖这三个维度,且规模远远不够。
  4. 本文要解决什么:构建一个百万级别的多模态agent调优数据集,同时支持CoT推理、动态API调用、反思纠错,并提供one-turn和multi-turn两种格式以平衡效率和精度。
  5. 切入角度:从已有的公开多模态QA数据集出发,用GPT-4o逐步生成推理轨迹、动态整合工具调用结果,并通过反思步骤修复推理中的跳步和作弊行为。
  6. 核心idea一句话:用四阶段数据引擎(Foundation→Rationale→Reflection→Integration)从公开QA数据合成百万级agent调优数据,同时支持CoT、工具调用和自我反思。

方法详解

整体框架

输入是公开多模态数据集中的图像-问答对,经过四阶段数据引擎处理后,输出两种格式的agent调优数据:多轮推理反思(RR)格式和单轮推理反思(ORR)格式。然后用LoRA对开源MLLM进行微调。

关键设计

  1. 四阶段数据引擎:
  2. Foundation阶段:从Visual CoT、LLaVA-CoT、The Cauldron、TabMWP、InfoSeek五个公开数据集收集图像+QA对,统一输入输出格式的prompt。同时准备五类外部工具:Image Caption(基于CCoT场景图)、OCR(PaddleOCR)、OVD(Grounding DINO)、Face Detection(deepface)、RAG(Google Search)。
  3. Rationale阶段:用GPT-4o以迭代方式生成推理轨迹。模型根据任务需求自适应选择调用哪些算子(如需要全局语义理解则调用Caption,需要物体信息则调用OVD),每一步推理显式记录思考过程、算子调用和后续动作,形成结构化STRING格式。
  4. Reflection阶段:针对两类推理缺陷:(1) 推理跳步——数学推导中省略关键步骤;(2) 推理作弊——GPT-4o强行将推理过程对齐到已知答案而非真正推导。用GPT-4o检测并修复这两类问题,增强训练数据的逻辑完整性。
  5. Integration阶段:将多轮对话压缩为ORR(One-turn Rationale and Reflection)格式——将所有工具结果预置于输入,推理过程合并为一轮输出。ORR在保持推理能力的同时显著加速推理。
  6. 设计动机:多轮RR格式精度更高但推理开销大,ORR格式效率高但无法动态调用RAG。两种格式互补,覆盖不同应用场景。

  7. 五类外部工具的动态调用:

  8. 做什么:在推理过程中自适应地调用Image Caption、OCR、OVD、Face Detection、RAG五类算子。
  9. 核心思路:模型先分析问题需求,决定需要哪类视觉信息,然后调用相应算子获取结果,将结果融入后续推理。Image Caption基于CCoT先构建场景图再生成描述,OVD使用Grounding DINO做开放词汇检测。
  10. 设计动机:不同任务需要不同类型的视觉信息,固定的工具链不够灵活。动态选择工具能让模型在推理过程中按需获取信息。

  11. 反思与纠错机制:

  12. 做什么:检测并修复推理轨迹中的逻辑缺陷,包括通用反思和数学反思两种prompt。
  13. 核心思路:通用反思prompt让GPT-4o检查推理是否存在"作弊"行为(结论先行然后凑推导);数学反思prompt检查推导是否跳步并补全遗漏步骤。
  14. 设计动机:直接用GPT-4o生成的推理轨迹质量不够,会出现逻辑不一致和步骤遗漏。反思机制约57K条数据被修正,提升了训练数据的可靠性,也让模型学会了自我纠错能力。

训练策略

使用LoRA微调,损失函数在原始交叉熵损失基础上加入Frobenius范数正则化:\(L = L_{\text{original}} + \lambda \sum_i \|\Delta\theta_i\|_F^2\)。在MMAT-1M全部1,090,263个QA对上训练1个epoch,学习率4e-5,使用ms-swift框架和ZeRO-2并行。

实验关键数据

主实验

模型 策略 MMStar MMMU MathVista MathVision AI2D OCRBench RealWorldQA Avg
InternVL2.5-8B Baseline 62.4 53.1 64.5 20.1 84.1 819 69.4 60.7
InternVL2.5-8B ORR 64.8 55.4 63.8 20.8 83.5 849 73.0 62.4
InternVL2.5-8B RR 65.3 57.3 64.8 21.7 84.2 839 74.4 63.4
Llama-3.2-11B Baseline 47.7 50.3 48.0 16.4 77.1 756 63.4 52.2
Llama-3.2-11B RR 51.4 51.0 49.1 16.8 77.9 784 69.3 55.3

RAG benchmark (Dyn-VQA, F1-Recall):

模型 Query Golden Query
InternVL2.5-8B Baseline 27.0 35.2
InternVL2.5-8B-RR 36.8 (+36.3%) 44.0 (+25.0%)
Llama-3.2-11B Baseline 29.4 34.6
Llama-3.2-11B-RR 38.0 (+29.3%) 45.1 (+30.3%)

消融实验

配置 Avg Dyn-VQA 说明
Baseline-RR (Full) 61.3 44.0 完整模型
w/o API 57.3 43.4 去掉API工具调用,平均掉4.0
w/o RAG 59.8 35.4 去掉RAG检索,Dyn-VQA大幅下降
w/o SFT 55.0 31.5 未经微调直接用RR格式推理
w/o Reflection (R only) 60.2 42.9 去掉反思,掉1.1
ORR 59.6 36.6 单轮格式,无法用RAG

关键发现

  • API工具调用贡献最大(去掉后掉4.0),验证了多模态agent需要外部工具辅助。
  • RAG对知识密集型任务(Dyn-VQA)至关重要,去掉后从44.0降到35.4。
  • 反思机制带来1.1提升,虽然不是最大的单一贡献,但对推理一致性很重要。
  • RR在OCRBench上表现不如ORR(839 vs 849),因为多轮推理中OCR误识别会影响反思流程,而ORR通过Image Caption可以弥补OCR错误。
  • ORR推理速度比Baseline约慢2x,RR约慢3-4x,但精度更高。
  • 模型获得了零样本调用未见工具的能力(如名人识别)。

亮点与洞察

  • 四阶段数据引擎的设计非常系统:从数据收集到推理生成再到反思纠错,每个阶段都有明确目标,特别是反思机制解决了GPT-4o生成数据时的"推理作弊"问题,这是一个很实际的工程洞察。
  • ORR和RR两种格式互补:一个注重效率,一个注重精度,让用户可以根据应用场景灵活选择。这种双格式策略可以迁移到其他agent数据集的构建中。
  • 零样本工具泛化能力:模型在未训练过的工具(名人识别)上也展现了调用能力,说明agent tuning教会的不只是特定工具的使用,而是一种通用的"何时以及如何调用工具"的能力。

局限性 / 可改进方向

  • 依赖GPT-4o生成推理轨迹,成本高且可能引入GPT-4o自身的偏差(虽然89%高质量,但仍有11%存在问题)。
  • 工具集固定(5类),无法覆盖更多工具(如代码执行、数据库查询等),且工具的复杂组合调用场景较少。
  • 仅在8B及以下规模模型上验证,未在更大模型和更多MLLM架构上测试。
  • 反思机制通过生成时注入,模型在推理时的自发反思能力有多强仍不清楚。

相关工作与启发

  • vs LLaVA-Plus: LLaVA-Plus只有117K数据且无反思机制,MMAT-1M规模大了近10倍并加入了反思和RAG。
  • vs T3-Agent/MM-Traj: MM-Traj只有20K轨迹,MMAT-1M的优势在于百万级规模和双格式输出。
  • vs LLaVA-CoT: LLaVA-CoT关注CoT推理但不涉及工具调用。MMAT-1M在CoT基础上增加了工具使用和反思。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个百万级多模态agent调优数据集,概念上有突破,但方法本身(用GPT-4o生成+反思)是比较标准的数据合成流程
  • 实验充分度: ⭐⭐⭐⭐ 覆盖8个benchmark+1个RAG benchmark,多个基线模型,消融完整
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,四阶段pipeline的描述很系统
  • 价值: ⭐⭐⭐⭐ 填补了多模态agent调优数据集不足的空白,对社区有实际价值