MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts¶

会议: CVPR 2025
arXiv: 2502.20808
代码: https://eternal8080.github.io/MV-MATH.github.io/
领域: 多模态VLM
关键词: 多图数学推理, 多模态基准, K-12数学, 多图理解, MLLM评估

一句话总结¶

本文提出 MV-MATH 基准，包含 2,009 道高质量多图数学题（来自真实 K-12 场景），系统评估了 25 个多模态大模型在多图数学推理场景下的能力，发现所有模型远低于人类水平（最佳 Claude 仅 33.9%），揭示了多图数学推理仍是 MLLM 的重大挑战。

研究背景与动机¶

领域现状：多模态大模型（MLLM）在数学推理领域取得了显著进展，MathVista 等基准上最好的模型甚至已超过人类表现。然而，现有的多模态数学基准（MathVista、MathVision、MathVerse 等）几乎都局限于单图场景——每道题只包含一张图片。

现有痛点：单图设置与真实数学应用场景严重脱节。在实际 K-12 教学中，学生经常需要同时理解多张图表、坐标系、几何图形之间的关系来解题。虽然已有 MathVerse-mv（788 题）和 CMM-Math（765 多图样本）尝试填补空白，但它们要么通过人工改写单图题生成多图题（引入分布偏差），要么包含低质量图片，且都缺乏细粒度分类和多样化题型。

核心矛盾：现有多图数学数据集在数量和多样性上都严重不足，无法全面评估 MLLM 在多图情境下的数学推理能力。MathVerse-mv 的变异系数（CV）仅 0.19，而真实场景的题目长度分布远比这丰富。

本文目标 (1) 构建大规模、高质量、来自真实场景的多图数学基准；(2) 系统评估 MLLM 在多图数学推理上的表现；(3) 深入分析模型的错误模式和性能瓶颈。

切入角度：作者直接从超过 30 万道真实 K-12 数学题中筛选，经过三阶段过滤和交叉验证，保证每道题都是真实的多图题而非人工拼接。

核心 idea：用真实 K-12 场景构建大规模多图数学基准 MV-MATH，系统揭示 MLLM 在多图推理上的巨大不足。

方法详解¶

整体框架¶

MV-MATH 的构建流程包括：数据收集 → 三阶段过滤 → 数据标注 → 基准评估。输入是 30 万+ 原始数学题 PDF，输出是 2,009 道经过严格筛选和标注的多图数学题，涵盖 11 个学科、3 个难度等级。

关键设计¶

三阶段数据过滤流程:
- 功能：从 30 万原始题中筛选出高质量多图题
- 核心思路：第一阶段验证文本与图片的对齐（Mathpix OCR 经常出错），从 49,538 道多图题保留 35,562 道；第二阶段检查文本字段缺失和语义错误，分类为选择题和填空题；第三阶段人工过滤低质量图片（模糊、含文字等），最终得到 1,109 道选择题 + 900 道填空题。每一步由至少两名研究生交叉验证。
- 设计动机：自动化 OCR 工具的错误率很高，必须通过多阶段过滤确保数据质量
图片关联性分类（MD/ID）:
- 功能：将题目分为"相互依赖型"（MD）和"独立型"（ID）两个子集
- 核心思路：MD 型题目中图片之间存在关联，理解一张图需要参考另一张（如同一几何图形的不同视角）；ID 型题目中图片相互独立。分类通过 GPT-4o、Claude-3.5-Sonnet、Qwen-VL-Max 三模型投票，再人工校验。
- 设计动机：区分图片关联性可以更深入分析模型在需要跨图推理 vs 独立推理时的表现差异
多维度难度和学科标注:
- 功能：提供细粒度的题目分类
- 核心思路：难度通过题目长度（权重 0.4）和解析长度（权重 0.6）的加权组合将题目分为 Easy/Medium/Hard 三档；学科通过三模型投票分为 11 个类别（解析几何、代数、度量几何、组合等）
- 设计动机：细粒度标注让研究者可以精确定位模型的薄弱环节

损失函数 / 训练策略¶

本文是评估基准而非训练方法，不涉及损失函数设计。评估采用多种配置：原始提示、CoT 提示、CoT + 2-shot 等。

实验关键数据¶

主实验¶

模型	Overall	Easy	Medium	Hard
Claude-3.5-sonnet	33.9%	35.7	37.5	26.6
GPT-4o	32.1%	40.3	32.7	22.9
LLaVA-OV-72B	26.2%	34.6	26.0	19.2
Qwen2VL-7B	16.5%	18.8	17.1	13.9
Human	~60%+	-	-	-

消融实验（CoT 策略对比）¶

模型	Original	CoT	CoT+2-shot
Claude-3.5	29.2	32.6 (+3.4)	33.9 (+1.3)
GPT-4o	31.8	30.9 (-0.9)	32.1 (+1.2)
Gemini-1.5	29.8	28.3 (-1.5)	29.1 (+0.8)
LLaVA-OV-72B	27.3	26.7 (-0.6)	26.2 (-0.5)

关键发现¶

CoT 提示对 Claude 有明显提升（+3.4），但对 GPT-4o、Gemini 等反而降低性能，说明 CoT 在多图数学任务中并不总是有效
所有模型在 Hard 难度上表现急剧下降，最好的 Claude 也仅 26.6%，表明多步推理仍是核心挑战
开源模型 LLaVA-OneVision-72B（26.2%）表现不俗，超过了 GPT-4V（24.5%）
在图片依赖型（MD）题目上，模型表现明显低于图片独立型（ID），说明跨图关联推理是主要瓶颈
顺序输入多图优于合并输入，表明模型对图片顺序信息的利用很重要

亮点与洞察¶

真实数据 vs 人工改写：从 30 万真实 K-12 题中筛选而非改写已有数据集，避免了 MathVerse-mv 那种人工拼接导致的分布偏差，这种"大池筛选"的策略在基准构建中很实用
CV 指标衡量分布多样性：用变异系数（CV=σ/μ）量化题目长度分布的丰富程度（MV-MATH 0.74 vs MathVerse-mv 0.19），简洁有效的指标选择
MD/ID 分类揭示跨图推理瓶颈：通过区分相互依赖型和独立型图片，首次定量证明了跨图关联推理是当前模型的核心弱点

局限与展望¶

数据全部来自中国 K-12 教育体系，可能存在文化/教育体系偏差，不一定能反映其他国家的数学教育场景
难度定义依赖于题目/解析长度的加权，这种方式比较粗糙，可能无法准确反映认知难度
仅评估了 2024 年之前的模型（包括 Claude-3.5），未涵盖 GPT-4o 后续版本和更新的开源模型
缺少对模型内部表征的分析——知道模型做错了，但不清楚错在哪一步（视觉理解还是数学推理）

评分¶

新颖性: ⭐⭐⭐⭐ 多图数学推理基准的空白较大，填补有价值但方法上偏数据工程
实验充分度: ⭐⭐⭐⭐⭐ 评估了 25 个模型，包含多种配置和深入的错误分析
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，统计详实
价值: ⭐⭐⭐⭐ 对社区了解多图推理瓶颈有重要参考价值