MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale¶

vs LLaVA-CoT: LLaVA-CoT 用 GPT-4o 生成 CoT 数据，MAmmoTH-VL 纯开源且规模大 10 倍
vs ShareGPT4V: ShareGPT4V 用 GPT-4V 生成描述，MAmmoTH-VL 专注推理链改写
vs LLaVA-OneVision: MAmmoTH-VL 在相同架构上通过更好的数据显著超越基线

会议: ACL 2025
arXiv: 2412.05237
代码: https://mammoth-vl.github.io
领域: Multimodal VLM
关键词: 多模态推理, 指令微调, CoT数据构建, 数据改写, 视觉语言模型

一句话总结¶

MAmmoTH-VL 提出了一种仅用开源模型构建 12M 多模态 CoT 推理指令数据的可扩展方法，通过数据收集→改写→自过滤三步管线，训练的 8B 模型在 MathVerse (+8.1%)、MMMU-Pro (+7%)、MuirBench (+13.3%) 上达到 SOTA。

三步管线：(1) 收集 153 个开源数据源，分为 10 个类别，筛选为三组（保留/改写/丢弃）→ (2) 用开源 MLLM/LLM 按类别定制策略改写，为简短回答添加详细推理链 → (3) 用同一 MLLM 做评判过滤幻觉和低质量数据 → 最终产出 12M 高质量 CoT 数据。

数据分类与筛选 (Collection & Categorization):
10 个类别：General/OCR/Chart/Caption/Domain-specific/Code&Math/Language/Detection/Multi-Image/Video
三组分类：A组(58个，质量够好直接保留) / B组(60个，改写) / C组(35个，丢弃)
设计动机：不同类别需要不同的改写策略
任务特定改写 (Task-specific Rewriting):
做什么：将简短答案改写为包含 step-by-step 推理的详细回答
核心思路：针对每个类别设计专门的改写 prompt，使用 InternVL-2 等开源 MLLM 改写
对数学/科学类数据：要求保留公式推导过程
对图表类数据：要求解释数据读取和分析步骤
设计动机：定制化改写比通用改写质量更高
自过滤 (Self-Filtering):
做什么：用改写时的同一 MLLM 作为评判，过滤产生幻觉或与原始答案不一致的改写
设计动机：开源模型改写不完美，自过滤可有效减少幻觉，消融实验证明其关键性

基于 LLaVA-OneVision 架构训练 MAmmoTH-VL-8B，使用 12M 改写后数据。