MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale¶
会议: ACL 2025
arXiv: 2412.05237
代码: https://mammoth-vl.github.io
领域: Multimodal VLM
关键词: 多模态推理, 指令微调, CoT数据构建, 数据改写, 视觉语言模型
一句话总结¶
MAmmoTH-VL 提出了一种仅用开源模型构建 12M 多模态 CoT 推理指令数据的可扩展方法,通过数据收集→改写→自过滤三步管线,训练的 8B 模型在 MathVerse (+8.1%)、MMMU-Pro (+7%)、MuirBench (+13.3%) 上达到 SOTA。
研究背景与动机¶
- 领域现状:开源 MLLM 在多模态任务上表现出色,但推理能力受限于指令微调数据质量
- 现有痛点:
- 现有多模态指令数据多来自学术 VQA 数据集(VQA、AI2D、ChartQA),只有短语级答案,缺乏中间推理过程
- 人工标注 CoT 推理过程成本极高且不可扩展
- 依赖 GPT-4 等闭源模型生成高质量数据存在成本和许可问题
- 核心矛盾:多模态 CoT 推理数据的规模化构建与质量保证之间的矛盾
- 本文要解决什么:用开源模型低成本构建大规模、高质量的多模态 CoT 指令数据
- 切入角度:对已有数据改写(rewriting)而非从头生成新数据——更可控、更忠实
- 核心idea一句话:用开源 MLLM 将现有短答案数据改写为包含详细推理链的 CoT 格式
方法详解¶
整体框架¶
三步管线:(1) 收集 153 个开源数据源,分为 10 个类别,筛选为三组(保留/改写/丢弃)→ (2) 用开源 MLLM/LLM 按类别定制策略改写,为简短回答添加详细推理链 → (3) 用同一 MLLM 做评判过滤幻觉和低质量数据 → 最终产出 12M 高质量 CoT 数据。
关键设计¶
- 数据分类与筛选 (Collection & Categorization):
- 10 个类别:General/OCR/Chart/Caption/Domain-specific/Code&Math/Language/Detection/Multi-Image/Video
- 三组分类:A组(58个,质量够好直接保留) / B组(60个,改写) / C组(35个,丢弃)
-
设计动机:不同类别需要不同的改写策略
-
任务特定改写 (Task-specific Rewriting):
- 做什么:将简短答案改写为包含 step-by-step 推理的详细回答
- 核心思路:针对每个类别设计专门的改写 prompt,使用 InternVL-2 等开源 MLLM 改写
- 对数学/科学类数据:要求保留公式推导过程
- 对图表类数据:要求解释数据读取和分析步骤
-
设计动机:定制化改写比通用改写质量更高
-
自过滤 (Self-Filtering):
- 做什么:用改写时的同一 MLLM 作为评判,过滤产生幻觉或与原始答案不一致的改写
- 设计动机:开源模型改写不完美,自过滤可有效减少幻觉,消融实验证明其关键性
损失函数 / 训练策略¶
基于 LLaVA-OneVision 架构训练 MAmmoTH-VL-8B,使用 12M 改写后数据。
实验关键数据¶
主实验(vs 之前 open SOTA)¶
| Benchmark | MAmmoTH-VL-8B | 提升 |
|---|---|---|
| MathVerse | +8.1% | 数学推理大幅提升 |
| MMMU-Pro | +7.0% | 通用多模态推理 |
| MuirBench | +13.3% | 多图推理 |
| 非推理benchmark | +4% | 通用能力也有提升 |
消融实验关键发现¶
- 自过滤去除约 15-20% 低质量样本,对幻觉抑制至关重要
- 混合改写数据和原始数据比只用改写数据效果更好
- 数据规模从 3M→6M→12M 持续提升性能
- 更强的改写模型产出更好的数据质量
亮点与洞察¶
- "改写"而非"生成"的策略非常实用——避免了从头生成的幻觉问题,且保留了原始数据的视觉接地
- 纯开源方案(不依赖 GPT-4)降低了社区复制的门槛
- 分类别制定改写策略比一刀切的通用 prompt 更有效
- 12M 规模的 CoT 数据对开源社区贡献很大
局限性 / 可改进方向¶
- 改写质量上限受限于开源 MLLM 的能力
- 自过滤可能误删一些好的改写
- 12M 数据只覆盖英文和中文
- 视频数据的改写策略可能不够充分
相关工作与启发¶
- vs LLaVA-CoT: LLaVA-CoT 用 GPT-4o 生成 CoT 数据,MAmmoTH-VL 纯开源且规模大 10 倍
- vs ShareGPT4V: ShareGPT4V 用 GPT-4V 生成描述,MAmmoTH-VL 专注推理链改写
- vs LLaVA-OneVision: MAmmoTH-VL 在相同架构上通过更好的数据显著超越基线
评分¶
- 新颖性: ⭐⭐⭐ 改写管线思路简洁,但不算全新
- 实验充分度: ⭐⭐⭐⭐⭐ 多benchmark+消融+规模分析+改写模型对比
- 写作质量: ⭐⭐⭐⭐ 管线图清晰,数据统计详尽
- 价值: ⭐⭐⭐⭐⭐ 12M开源CoT数据+纯开源方案,社区贡献极大