MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning¶
会议: ICCV 2025
arXiv: 2507.21924
代码: https://github.com/VIS-MPU-Agent/MMAT-1M
领域: 多模态VLM / Agent
关键词: multimodal agent tuning, chain-of-thought, reflection, tool usage, reasoning dataset
一句话总结¶
提出首个百万规模的多模态agent调优数据集MMAT-1M,通过四阶段数据引擎(基础数据→推理轨迹生成→反思纠错→格式整合)为MLLM注入CoT推理、工具调用和反思能力,在InternVL2.5-8B上平均提升2.7%,RAG任务上提升8.8%。
研究背景与动机¶
- 领域现状:LLM通过agent tuning已经在CoT推理和工具使用上取得显著进展,但多模态领域仍缺少大规模、高质量的agent调优数据集。现有的多模态agent相关数据集(如LLaVA-Plus 117K、MM-Traj 20K)规模小、分布单一。
- 现有痛点:现有多模态agent数据集有三个关键缺陷:(1) 数据分布单一,无法提升模型在多样benchmark上的表现;(2) 缺乏对视觉工具引入错误的反思机制,模型鲁棒性差;(3) 推理和工具使用机制不够灵活,实际应用可行性低。
- 核心矛盾:多模态大模型需要同时具备推理能力、工具调用能力和错误纠正能力,但现有数据集无法同时覆盖这三个维度,且规模远远不够。
- 本文要解决什么:构建一个百万级别的多模态agent调优数据集,同时支持CoT推理、动态API调用、反思纠错,并提供one-turn和multi-turn两种格式以平衡效率和精度。
- 切入角度:从已有的公开多模态QA数据集出发,用GPT-4o逐步生成推理轨迹、动态整合工具调用结果,并通过反思步骤修复推理中的跳步和作弊行为。
- 核心idea一句话:用四阶段数据引擎(Foundation→Rationale→Reflection→Integration)从公开QA数据合成百万级agent调优数据,同时支持CoT、工具调用和自我反思。
方法详解¶
整体框架¶
输入是公开多模态数据集中的图像-问答对,经过四阶段数据引擎处理后,输出两种格式的agent调优数据:多轮推理反思(RR)格式和单轮推理反思(ORR)格式。然后用LoRA对开源MLLM进行微调。
关键设计¶
- 四阶段数据引擎:
- Foundation阶段:从Visual CoT、LLaVA-CoT、The Cauldron、TabMWP、InfoSeek五个公开数据集收集图像+QA对,统一输入输出格式的prompt。同时准备五类外部工具:Image Caption(基于CCoT场景图)、OCR(PaddleOCR)、OVD(Grounding DINO)、Face Detection(deepface)、RAG(Google Search)。
- Rationale阶段:用GPT-4o以迭代方式生成推理轨迹。模型根据任务需求自适应选择调用哪些算子(如需要全局语义理解则调用Caption,需要物体信息则调用OVD),每一步推理显式记录思考过程、算子调用和后续动作,形成结构化STRING格式。
- Reflection阶段:针对两类推理缺陷:(1) 推理跳步——数学推导中省略关键步骤;(2) 推理作弊——GPT-4o强行将推理过程对齐到已知答案而非真正推导。用GPT-4o检测并修复这两类问题,增强训练数据的逻辑完整性。
- Integration阶段:将多轮对话压缩为ORR(One-turn Rationale and Reflection)格式——将所有工具结果预置于输入,推理过程合并为一轮输出。ORR在保持推理能力的同时显著加速推理。
-
设计动机:多轮RR格式精度更高但推理开销大,ORR格式效率高但无法动态调用RAG。两种格式互补,覆盖不同应用场景。
-
五类外部工具的动态调用:
- 做什么:在推理过程中自适应地调用Image Caption、OCR、OVD、Face Detection、RAG五类算子。
- 核心思路:模型先分析问题需求,决定需要哪类视觉信息,然后调用相应算子获取结果,将结果融入后续推理。Image Caption基于CCoT先构建场景图再生成描述,OVD使用Grounding DINO做开放词汇检测。
-
设计动机:不同任务需要不同类型的视觉信息,固定的工具链不够灵活。动态选择工具能让模型在推理过程中按需获取信息。
-
反思与纠错机制:
- 做什么:检测并修复推理轨迹中的逻辑缺陷,包括通用反思和数学反思两种prompt。
- 核心思路:通用反思prompt让GPT-4o检查推理是否存在"作弊"行为(结论先行然后凑推导);数学反思prompt检查推导是否跳步并补全遗漏步骤。
- 设计动机:直接用GPT-4o生成的推理轨迹质量不够,会出现逻辑不一致和步骤遗漏。反思机制约57K条数据被修正,提升了训练数据的可靠性,也让模型学会了自我纠错能力。
训练策略¶
使用LoRA微调,损失函数在原始交叉熵损失基础上加入Frobenius范数正则化:\(L = L_{\text{original}} + \lambda \sum_i \|\Delta\theta_i\|_F^2\)。在MMAT-1M全部1,090,263个QA对上训练1个epoch,学习率4e-5,使用ms-swift框架和ZeRO-2并行。
实验关键数据¶
主实验¶
| 模型 | 策略 | MMStar | MMMU | MathVista | MathVision | AI2D | OCRBench | RealWorldQA | Avg |
|---|---|---|---|---|---|---|---|---|---|
| InternVL2.5-8B | Baseline | 62.4 | 53.1 | 64.5 | 20.1 | 84.1 | 819 | 69.4 | 60.7 |
| InternVL2.5-8B | ORR | 64.8 | 55.4 | 63.8 | 20.8 | 83.5 | 849 | 73.0 | 62.4 |
| InternVL2.5-8B | RR | 65.3 | 57.3 | 64.8 | 21.7 | 84.2 | 839 | 74.4 | 63.4 |
| Llama-3.2-11B | Baseline | 47.7 | 50.3 | 48.0 | 16.4 | 77.1 | 756 | 63.4 | 52.2 |
| Llama-3.2-11B | RR | 51.4 | 51.0 | 49.1 | 16.8 | 77.9 | 784 | 69.3 | 55.3 |
RAG benchmark (Dyn-VQA, F1-Recall):
| 模型 | Query | Golden Query |
|---|---|---|
| InternVL2.5-8B Baseline | 27.0 | 35.2 |
| InternVL2.5-8B-RR | 36.8 (+36.3%) | 44.0 (+25.0%) |
| Llama-3.2-11B Baseline | 29.4 | 34.6 |
| Llama-3.2-11B-RR | 38.0 (+29.3%) | 45.1 (+30.3%) |
消融实验¶
| 配置 | Avg | Dyn-VQA | 说明 |
|---|---|---|---|
| Baseline-RR (Full) | 61.3 | 44.0 | 完整模型 |
| w/o API | 57.3 | 43.4 | 去掉API工具调用,平均掉4.0 |
| w/o RAG | 59.8 | 35.4 | 去掉RAG检索,Dyn-VQA大幅下降 |
| w/o SFT | 55.0 | 31.5 | 未经微调直接用RR格式推理 |
| w/o Reflection (R only) | 60.2 | 42.9 | 去掉反思,掉1.1 |
| ORR | 59.6 | 36.6 | 单轮格式,无法用RAG |
关键发现¶
- API工具调用贡献最大(去掉后掉4.0),验证了多模态agent需要外部工具辅助。
- RAG对知识密集型任务(Dyn-VQA)至关重要,去掉后从44.0降到35.4。
- 反思机制带来1.1提升,虽然不是最大的单一贡献,但对推理一致性很重要。
- RR在OCRBench上表现不如ORR(839 vs 849),因为多轮推理中OCR误识别会影响反思流程,而ORR通过Image Caption可以弥补OCR错误。
- ORR推理速度比Baseline约慢2x,RR约慢3-4x,但精度更高。
- 模型获得了零样本调用未见工具的能力(如名人识别)。
亮点与洞察¶
- 四阶段数据引擎的设计非常系统:从数据收集到推理生成再到反思纠错,每个阶段都有明确目标,特别是反思机制解决了GPT-4o生成数据时的"推理作弊"问题,这是一个很实际的工程洞察。
- ORR和RR两种格式互补:一个注重效率,一个注重精度,让用户可以根据应用场景灵活选择。这种双格式策略可以迁移到其他agent数据集的构建中。
- 零样本工具泛化能力:模型在未训练过的工具(名人识别)上也展现了调用能力,说明agent tuning教会的不只是特定工具的使用,而是一种通用的"何时以及如何调用工具"的能力。
局限性 / 可改进方向¶
- 依赖GPT-4o生成推理轨迹,成本高且可能引入GPT-4o自身的偏差(虽然89%高质量,但仍有11%存在问题)。
- 工具集固定(5类),无法覆盖更多工具(如代码执行、数据库查询等),且工具的复杂组合调用场景较少。
- 仅在8B及以下规模模型上验证,未在更大模型和更多MLLM架构上测试。
- 反思机制通过生成时注入,模型在推理时的自发反思能力有多强仍不清楚。
相关工作与启发¶
- vs LLaVA-Plus: LLaVA-Plus只有117K数据且无反思机制,MMAT-1M规模大了近10倍并加入了反思和RAG。
- vs T3-Agent/MM-Traj: MM-Traj只有20K轨迹,MMAT-1M的优势在于百万级规模和双格式输出。
- vs LLaVA-CoT: LLaVA-CoT关注CoT推理但不涉及工具调用。MMAT-1M在CoT基础上增加了工具使用和反思。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个百万级多模态agent调优数据集,概念上有突破,但方法本身(用GPT-4o生成+反思)是比较标准的数据合成流程
- 实验充分度: ⭐⭐⭐⭐ 覆盖8个benchmark+1个RAG benchmark,多个基线模型,消融完整
- 写作质量: ⭐⭐⭐⭐ 结构清晰,四阶段pipeline的描述很系统
- 价值: ⭐⭐⭐⭐ 填补了多模态agent调优数据集不足的空白,对社区有实际价值