MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math?¶

会议: ECCV 2024
arXiv: 2403.14624
代码: https://mathverse-cuhk.github.io (有)
领域: 多模态VLM
关键词: 数学推理评测, 视觉数学, 文本冗余, CoT评估, 多模态理解

一句话总结¶

提出MathVerse——一个专门评估MLLM视觉数学推理能力的基准，通过将每道题转化为6个版本（从文本主导到纯视觉），揭示大多数MLLM严重依赖文本提示而非真正理解数学图表，并提出CoT评估策略进行细粒度推理过程评分。

研究背景与动机¶

领域现状：MLLM的数学推理能力备受关注，已有GeoQA（几何）、MathVista（广泛数学任务）和MMMU（大学级多学科）等基准进行评估。
现有痛点：(a) 现有基准的文本问题中包含大量与图表重复的描述性信息（文本冗余），MLLM可能仅靠读文本就能答题而不真正看图；(b) 仅以最终答案对错评判太粗糙，忽略了中间推理质量的差异；(c) MathVista包含大量非核心数学任务（19/28为外围任务），MMMU的大学难度可能因知识门槛限制了推理评估。
核心矛盾：评测MLLM的"视觉数学推理"能力，但问题文本本身就提供了足够信息绕过视觉理解——导致评测结果不能反映真实的多模态理解水平。
本文要解决什么：设计一个能真正检验MLLM是否读懂了数学图表的评测基准，并提供细粒度的推理过程评估。
切入角度：系统化地将问题文本中的信息按重要性分三类（描述信息、隐含属性、必要条件），逐步去除文本信息并将其视觉化到图表中。
核心idea一句话：通过创建同一道题的6个多模态信息版本并进行CoT推理评估，揭示MLLM是否真正利用了视觉信息做数学推理。

方法详解¶

整体框架¶

MathVerse包含2612道高质量视觉数学题，每道转化为6个版本（15K+ test samples），覆盖平面几何、立体几何和函数三大主题。评测由两部分组成：(1) 基于六版本对比的视觉理解评估；(2) 基于GPT-4(V)的CoT推理评估策略。

关键设计¶

1. 问题文本的三类信息定义 - 做什么：将问题文本按对解题的重要性分为三类 - 核心思路： - 描述信息(DI)：直接可从图中观察到的——基本图形组成、空间排列、标注实体 - 隐含属性(IP)：需要更高级视觉感知的——平行垂直关系、相似全等、函数类型/周期性 - 必要条件(EC)：特定数值/代数测量——角度值、边长、函数表达式，这些不可能从图中推导 - 设计动机：DI是明确的冗余信息，IP考验视觉理解深度，EC是解题的不可或缺条件

2. 六个版本的问题设计 - 做什么：专家标注员将每道题转化为6个版本 - 核心思路： - (1) Text-dominant：保留全部文本（DI+IP+EC+问题） - (2) Text-lite：去除DI → 检验MLLM能否从图中获取基本描述 - (3) Text-only：去除图表 → 对照组，检验文本够不够解题 - (4) Vision-intensive：去除DI和IP → 高度依赖视觉理解 - (5) Vision-dominant：去除DI和EC、EC标注到图中 → 必须从图中识别数值 - (6) Vision-only：纯视觉 → 极限测试 - 设计动机：渐进式信息转移，逐步迫使MLLM更多依赖视觉输入

3. CoT评估策略 - 做什么：用GPT-4(V)进行两阶段推理过程评估 - 核心思路： - Phase 1 关键步骤提取：用GPT-4（仅文本版）从MLLM输出中提取N个关键推理步骤，故意不输入原题和答案以避免GPT-4自身答题偏向 - Phase 2 多步评分：用GPT-4V（多模态版）评估每个步骤的正确性（0/1），提供详细错误分析 - 最终分数 = 0.7×(平均步骤分) + 0.3×(最终答案分) - 设计动机：不预定义标准推理模板（因为不同题可能有不同解法，不同模型推理长度不一），自适应提取每个模型独特的推理路径

损失函数 / 训练策略¶

MathVerse是评测基准，不涉及训练。数据构建流程： - 750题来自GeoQA + 119题GEOS + 507题Geometry3K + 370题新收集(平面几何) - 332题立体几何 + 534题函数(新收集) - 专家审校确保答案正确、问答一致、类别相关

实验关键数据¶

主实验¶

模型	All	Text-dom	Text-lite	Text-only	Vision-int	Vision-dom	Vision-only
GPT-4V	最优	最优	最优	高	最优	最优	最优
Qwen-VL-Max	中等	中等	低	高于Text-lite 5.1%	低	低	最低
InternLM-XC2	中等	中等	低	高于Text-lite 5.6%	低	低	最低

消融实验¶

评估方式	说明
Accuracy only	粗粒度，忽略推理质量差异
CoT评估	细粒度，可区分推理过程质量
去冗余文本	大多数MLLM性能大幅下降
去图表	部分MLLM性能反而上升

关键发现¶

震撼发现：Qwen-VL-Max和InternLM-XComposer2在去掉图表后准确率反而上升5%+，说明其视觉编码能力不仅无助于数学推理，反而起到了干扰作用
GPT-4V和ShareGPT4V是少数能在视觉增强版本中保持或提升性能的模型，展示了相对更好的图表理解能力
从Text-dom到Vision-only，所有模型性能都大幅下降，说明当前MLLM的视觉数学理解能力普遍不足
CoT评估揭示的中间推理质量差异被二值评估完全忽略——有些模型推理过程正确但最终答案错误
视觉数学理解是当前MLLM的最大短板，比推理能力本身更关键

亮点与洞察¶

六版本设计的巧妙性：通过信息的渐进转移，精确定位MLLM在视觉理解链条中的断点
Text-only对照组的设计：直接暴露了文本冗余问题——如果去掉图反而更好，说明模型根本没在看图
CoT评估的自适应性：不预设标准答案步骤，适应不同模型的推理风格和长度
问题定义的深刻性："MLLM是否真正看懂了图？"这个问题触及了多模态评测的根本

局限性 / 可改进方向¶

六版本的标注依赖专家，成本高且难以大规模扩展
CoT评估依赖GPT-4V，GPT-4V本身在函数图表识别上也不够稳定
仅覆盖高中数学三个主题，更多学科（如统计、概率）待扩展
Vision-only版本将所有信息渲染到图中可能引入排版困难和信息密度问题
评估成本较高（需多次调用GPT-4/GPT-4V）

评分¶

新颖性: ⭐⭐⭐⭐⭐ (六版本信息转移方案极具创意)
技术深度: ⭐⭐⭐⭐ (CoT评估策略设计严谨)
实验充分性: ⭐⭐⭐⭐⭐ (多模型×多版本×CoT全面评测)
写作质量: ⭐⭐⭐⭐⭐ (问题定义深刻，图表说明直观)
影响力: ⭐⭐⭐⭐⭐ (揭示了MLLM数学视觉理解的关键短板)