MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning¶

会议: ICCV 2025
arXiv: 2507.21924
代码: https://github.com/VIS-MPU-Agent/MMAT-1M
领域: 多模态VLM / Agent
关键词: multimodal agent tuning, chain-of-thought, reflection, tool usage, reasoning dataset

一句话总结¶

提出首个百万规模的多模态agent调优数据集MMAT-1M，通过四阶段数据引擎（基础数据→推理轨迹生成→反思纠错→格式整合）为MLLM注入CoT推理、工具调用和反思能力，在InternVL2.5-8B上平均提升2.7%，RAG任务上提升8.8%。

研究背景与动机¶

领域现状：LLM通过agent tuning已经在CoT推理和工具使用上取得显著进展，但多模态领域仍缺少大规模、高质量的agent调优数据集。现有的多模态agent相关数据集（如LLaVA-Plus 117K、MM-Traj 20K）规模小、分布单一。
现有痛点：现有多模态agent数据集有三个关键缺陷：(1) 数据分布单一，无法提升模型在多样benchmark上的表现；(2) 缺乏对视觉工具引入错误的反思机制，模型鲁棒性差；(3) 推理和工具使用机制不够灵活，实际应用可行性低。
核心矛盾：多模态大模型需要同时具备推理能力、工具调用能力和错误纠正能力，但现有数据集无法同时覆盖这三个维度，且规模远远不够。
本文要解决什么：构建一个百万级别的多模态agent调优数据集，同时支持CoT推理、动态API调用、反思纠错，并提供one-turn和multi-turn两种格式以平衡效率和精度。
切入角度：从已有的公开多模态QA数据集出发，用GPT-4o逐步生成推理轨迹、动态整合工具调用结果，并通过反思步骤修复推理中的跳步和作弊行为。
核心idea一句话：用四阶段数据引擎（Foundation→Rationale→Reflection→Integration）从公开QA数据合成百万级agent调优数据，同时支持CoT、工具调用和自我反思。

方法详解¶

整体框架¶

输入是公开多模态数据集中的图像-问答对，经过四阶段数据引擎处理后，输出两种格式的agent调优数据：多轮推理反思（RR）格式和单轮推理反思（ORR）格式。然后用LoRA对开源MLLM进行微调。

关键设计¶

四阶段数据引擎:
Foundation阶段：从Visual CoT、LLaVA-CoT、The Cauldron、TabMWP、InfoSeek五个公开数据集收集图像+QA对，统一输入输出格式的prompt。同时准备五类外部工具：Image Caption（基于CCoT场景图）、OCR（PaddleOCR）、OVD（Grounding DINO）、Face Detection（deepface）、RAG（Google Search）。
Rationale阶段：用GPT-4o以迭代方式生成推理轨迹。模型根据任务需求自适应选择调用哪些算子（如需要全局语义理解则调用Caption，需要物体信息则调用OVD），每一步推理显式记录思考过程、算子调用和后续动作，形成结构化STRING格式。
Reflection阶段：针对两类推理缺陷：(1) 推理跳步——数学推导中省略关键步骤；(2) 推理作弊——GPT-4o强行将推理过程对齐到已知答案而非真正推导。用GPT-4o检测并修复这两类问题，增强训练数据的逻辑完整性。
Integration阶段：将多轮对话压缩为ORR（One-turn Rationale and Reflection）格式——将所有工具结果预置于输入，推理过程合并为一轮输出。ORR在保持推理能力的同时显著加速推理。
设计动机：多轮RR格式精度更高但推理开销大，ORR格式效率高但无法动态调用RAG。两种格式互补，覆盖不同应用场景。
五类外部工具的动态调用:
做什么：在推理过程中自适应地调用Image Caption、OCR、OVD、Face Detection、RAG五类算子。
核心思路：模型先分析问题需求，决定需要哪类视觉信息，然后调用相应算子获取结果，将结果融入后续推理。Image Caption基于CCoT先构建场景图再生成描述，OVD使用Grounding DINO做开放词汇检测。
设计动机：不同任务需要不同类型的视觉信息，固定的工具链不够灵活。动态选择工具能让模型在推理过程中按需获取信息。
反思与纠错机制:
做什么：检测并修复推理轨迹中的逻辑缺陷，包括通用反思和数学反思两种prompt。
核心思路：通用反思prompt让GPT-4o检查推理是否存在"作弊"行为（结论先行然后凑推导）；数学反思prompt检查推导是否跳步并补全遗漏步骤。
设计动机：直接用GPT-4o生成的推理轨迹质量不够，会出现逻辑不一致和步骤遗漏。反思机制约57K条数据被修正，提升了训练数据的可靠性，也让模型学会了自我纠错能力。

训练策略¶

使用LoRA微调，损失函数在原始交叉熵损失基础上加入Frobenius范数正则化：\(L = L_{\text{original}} + \lambda \sum_i \|\Delta\theta_i\|_F^2\)。在MMAT-1M全部1,090,263个QA对上训练1个epoch，学习率4e-5，使用ms-swift框架和ZeRO-2并行。

实验关键数据¶

主实验¶

模型	策略	MMStar	MMMU	MathVista	MathVision	AI2D	OCRBench	RealWorldQA	Avg
InternVL2.5-8B	Baseline	62.4	53.1	64.5	20.1	84.1	819	69.4	60.7
InternVL2.5-8B	ORR	64.8	55.4	63.8	20.8	83.5	849	73.0	62.4
InternVL2.5-8B	RR	65.3	57.3	64.8	21.7	84.2	839	74.4	63.4
Llama-3.2-11B	Baseline	47.7	50.3	48.0	16.4	77.1	756	63.4	52.2
Llama-3.2-11B	RR	51.4	51.0	49.1	16.8	77.9	784	69.3	55.3

RAG benchmark (Dyn-VQA, F1-Recall):

模型	Query	Golden Query
InternVL2.5-8B Baseline	27.0	35.2
InternVL2.5-8B-RR	36.8 (+36.3%)	44.0 (+25.0%)
Llama-3.2-11B Baseline	29.4	34.6
Llama-3.2-11B-RR	38.0 (+29.3%)	45.1 (+30.3%)

消融实验¶

配置	Avg	Dyn-VQA	说明
Baseline-RR (Full)	61.3	44.0	完整模型
w/o API	57.3	43.4	去掉API工具调用，平均掉4.0
w/o RAG	59.8	35.4	去掉RAG检索，Dyn-VQA大幅下降
w/o SFT	55.0	31.5	未经微调直接用RR格式推理
w/o Reflection (R only)	60.2	42.9	去掉反思，掉1.1
ORR	59.6	36.6	单轮格式，无法用RAG

关键发现¶

API工具调用贡献最大（去掉后掉4.0），验证了多模态agent需要外部工具辅助。
RAG对知识密集型任务（Dyn-VQA）至关重要，去掉后从44.0降到35.4。
反思机制带来1.1提升，虽然不是最大的单一贡献，但对推理一致性很重要。
RR在OCRBench上表现不如ORR（839 vs 849），因为多轮推理中OCR误识别会影响反思流程，而ORR通过Image Caption可以弥补OCR错误。
ORR推理速度比Baseline约慢2x，RR约慢3-4x，但精度更高。
模型获得了零样本调用未见工具的能力（如名人识别）。

亮点与洞察¶

四阶段数据引擎的设计非常系统：从数据收集到推理生成再到反思纠错，每个阶段都有明确目标，特别是反思机制解决了GPT-4o生成数据时的"推理作弊"问题，这是一个很实际的工程洞察。
ORR和RR两种格式互补：一个注重效率，一个注重精度，让用户可以根据应用场景灵活选择。这种双格式策略可以迁移到其他agent数据集的构建中。
零样本工具泛化能力：模型在未训练过的工具（名人识别）上也展现了调用能力，说明agent tuning教会的不只是特定工具的使用，而是一种通用的"何时以及如何调用工具"的能力。

局限性 / 可改进方向¶

依赖GPT-4o生成推理轨迹，成本高且可能引入GPT-4o自身的偏差（虽然89%高质量，但仍有11%存在问题）。
工具集固定（5类），无法覆盖更多工具（如代码执行、数据库查询等），且工具的复杂组合调用场景较少。
仅在8B及以下规模模型上验证，未在更大模型和更多MLLM架构上测试。
反思机制通过生成时注入，模型在推理时的自发反思能力有多强仍不清楚。

评分¶

新颖性: ⭐⭐⭐⭐ 首个百万级多模态agent调优数据集，概念上有突破，但方法本身（用GPT-4o生成+反思）是比较标准的数据合成流程
实验充分度: ⭐⭐⭐⭐ 覆盖8个benchmark+1个RAG benchmark，多个基线模型，消融完整
写作质量: ⭐⭐⭐⭐ 结构清晰，四阶段pipeline的描述很系统
价值: ⭐⭐⭐⭐ 填补了多模态agent调优数据集不足的空白，对社区有实际价值