VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs¶

会议: ICLR 2026
arXiv: 2506.06727
代码: GitHub
领域: 多模态VLM
关键词: 数学推理基准, 多图像推理, 视觉相似性, 图文对齐, LMM评测

一句话总结¶

提出VisioMath基准，包含1800道K-12数学题目，所有选项均为高度视觉相似的图表，揭示了LMM在多图像-文本对齐上的核心短板，并探索三种对齐策略实现+12.6%的提升。

现有多模态数学推理基准大多关注单图场景或文本选项，忽略了一类重要且常见的题型：所有答案选项均为图表的题目。这类题目在K-12数学教育中普遍存在，要求对视觉极为相似的几何图形、函数曲线等进行精细比较推理。

已有多图像基准（如MathVerse-mv、MV-Math）缺乏对高度视觉相似的系统考量。VisioMath的核心观察：LMM在区分几乎相同的图表选项时系统性失败，其主要失败模式是图文错位——模型依赖位置启发式而非文本线索进行推理。

VisioMath = 精心构建的1800道数学多选题基准 + 全面评测 + 对齐策略探索。

基准构建: 从2002-2023年中国高中及高考真题中收集1800道多选题，包含8070张图表选项。三大设计原则：
- 代表性: 真实考试题目，覆盖几何、代数可视化、数值比较、函数模式识别等K-12主题
- 可靠性: JSON标准化、LaTeX数学公式、手工裁剪图像（严格一图一选项）、人工交叉审核
- 高视觉相似性: 使用Qwen multimodal-embedding-v1计算选项间最小余弦相似度 \(\text{Sim}(Q) = \min_{i \neq j} \cos(f(x_i), f(x_j))\)，保留完整相似度谱避免选择偏差
视觉相似度量化: 问题按视觉相似度分为四个四分位区间(Q1-Q4)，系统研究LMM随相似度变化的表现。约50%题目的题干也包含图像，进一步增加视觉推理复杂度。
三种对齐策略:
- 图像合并(training-free): 将多张选项图合并到单一布局中
- 显式视觉-文本锚点(training-free): 在图像和文本选项间建立明确的对应标记
- 对齐导向CoT微调: 构建多图像思维链数据集进行微调，仅少量数据即可获得+12.6%提升

本文主要是基准评测工作。对齐导向CoT微调使用标准SFT在少量VisioMath-CoT数据上进行。

模型	VisioMath均分	无图题干	有图题干
Human	91.3	92.3	89.7
Gemini 2.5 Pro	80.9	86.3	75.2
Seed1.6-Thinking	72.3	83.9	58.0
GPT-4.1	52.6	56.1	42.8
GLM-4.5V (开源最佳)	53.7	61.2	37.2
Qwen2.5-VL-72B	43.7	49.8	33.0
Vision-R1-7B	36.7	33.7	29.2
Random	25.6	-	-

视觉相似度区间	Q1 (低)	Q2	Q3	Q4 (高)
Human	95.7	91.2	87.6	89.0
Gemini 2.5 Pro	86.2	83.8	76.7	76.9
GLM-4.5V	68.7	59.3	44.2	44.7
Qwen2.5-VL-7B	33.6	37.8	29.8	29.6

误差分析(GLM4.5V, 50样本)	占比	说明
图文错位	36%	最主要错误来源
其他推理错误	64%	含计算错误、概念错误等