跳转至

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

会议: ACL 2025
arXiv: 2412.05237
代码: https://mammoth-vl.github.io
领域: Multimodal VLM
关键词: 多模态推理, 指令微调, CoT数据构建, 数据改写, 视觉语言模型

一句话总结

MAmmoTH-VL 提出了一种仅用开源模型构建 12M 多模态 CoT 推理指令数据的可扩展方法,通过数据收集→改写→自过滤三步管线,训练的 8B 模型在 MathVerse (+8.1%)、MMMU-Pro (+7%)、MuirBench (+13.3%) 上达到 SOTA。

研究背景与动机

  1. 领域现状:开源 MLLM 在多模态任务上表现出色,但推理能力受限于指令微调数据质量
  2. 现有痛点
  3. 现有多模态指令数据多来自学术 VQA 数据集(VQA、AI2D、ChartQA),只有短语级答案,缺乏中间推理过程
  4. 人工标注 CoT 推理过程成本极高且不可扩展
  5. 依赖 GPT-4 等闭源模型生成高质量数据存在成本和许可问题
  6. 核心矛盾:多模态 CoT 推理数据的规模化构建与质量保证之间的矛盾
  7. 本文要解决什么:用开源模型低成本构建大规模、高质量的多模态 CoT 指令数据
  8. 切入角度:对已有数据改写(rewriting)而非从头生成新数据——更可控、更忠实
  9. 核心idea一句话:用开源 MLLM 将现有短答案数据改写为包含详细推理链的 CoT 格式

方法详解

整体框架

三步管线:(1) 收集 153 个开源数据源,分为 10 个类别,筛选为三组(保留/改写/丢弃)→ (2) 用开源 MLLM/LLM 按类别定制策略改写,为简短回答添加详细推理链 → (3) 用同一 MLLM 做评判过滤幻觉和低质量数据 → 最终产出 12M 高质量 CoT 数据。

关键设计

  1. 数据分类与筛选 (Collection & Categorization):
  2. 10 个类别:General/OCR/Chart/Caption/Domain-specific/Code&Math/Language/Detection/Multi-Image/Video
  3. 三组分类:A组(58个,质量够好直接保留) / B组(60个,改写) / C组(35个,丢弃)
  4. 设计动机:不同类别需要不同的改写策略

  5. 任务特定改写 (Task-specific Rewriting):

  6. 做什么:将简短答案改写为包含 step-by-step 推理的详细回答
  7. 核心思路:针对每个类别设计专门的改写 prompt,使用 InternVL-2 等开源 MLLM 改写
  8. 对数学/科学类数据:要求保留公式推导过程
  9. 对图表类数据:要求解释数据读取和分析步骤
  10. 设计动机:定制化改写比通用改写质量更高

  11. 自过滤 (Self-Filtering):

  12. 做什么:用改写时的同一 MLLM 作为评判,过滤产生幻觉或与原始答案不一致的改写
  13. 设计动机:开源模型改写不完美,自过滤可有效减少幻觉,消融实验证明其关键性

损失函数 / 训练策略

基于 LLaVA-OneVision 架构训练 MAmmoTH-VL-8B,使用 12M 改写后数据。

实验关键数据

主实验(vs 之前 open SOTA)

Benchmark MAmmoTH-VL-8B 提升
MathVerse +8.1% 数学推理大幅提升
MMMU-Pro +7.0% 通用多模态推理
MuirBench +13.3% 多图推理
非推理benchmark +4% 通用能力也有提升

消融实验关键发现

  • 自过滤去除约 15-20% 低质量样本,对幻觉抑制至关重要
  • 混合改写数据和原始数据比只用改写数据效果更好
  • 数据规模从 3M→6M→12M 持续提升性能
  • 更强的改写模型产出更好的数据质量

亮点与洞察

  • "改写"而非"生成"的策略非常实用——避免了从头生成的幻觉问题,且保留了原始数据的视觉接地
  • 纯开源方案(不依赖 GPT-4)降低了社区复制的门槛
  • 分类别制定改写策略比一刀切的通用 prompt 更有效
  • 12M 规模的 CoT 数据对开源社区贡献很大

局限性 / 可改进方向

  • 改写质量上限受限于开源 MLLM 的能力
  • 自过滤可能误删一些好的改写
  • 12M 数据只覆盖英文和中文
  • 视频数据的改写策略可能不够充分

相关工作与启发

  • vs LLaVA-CoT: LLaVA-CoT 用 GPT-4o 生成 CoT 数据,MAmmoTH-VL 纯开源且规模大 10 倍
  • vs ShareGPT4V: ShareGPT4V 用 GPT-4V 生成描述,MAmmoTH-VL 专注推理链改写
  • vs LLaVA-OneVision: MAmmoTH-VL 在相同架构上通过更好的数据显著超越基线

评分

  • 新颖性: ⭐⭐⭐ 改写管线思路简洁,但不算全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 多benchmark+消融+规模分析+改写模型对比
  • 写作质量: ⭐⭐⭐⭐ 管线图清晰,数据统计详尽
  • 价值: ⭐⭐⭐⭐⭐ 12M开源CoT数据+纯开源方案,社区贡献极大