We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?¶

会议: ACL 2025
arXiv: 2407.01284
代码: We-Math/We-Math
领域: 多模态VLM
关键词: 视觉数学推理, benchmark, 知识概念分解, 过程评估, 大规模多模态模型

一句话总结¶

本文提出We-Math基准，首次通过将复合数学问题按知识概念分解为子问题，引入IK/IG/CM/RM四维指标来层次化评估LMM的推理过程（而非仅看最终结果），揭示了LMM普遍存在知识不足（IK）问题，且GPT-4o是首个从IK阶段迈入知识泛化（IG）阶段的模型。

研究背景与动机¶

视觉数学推理是多模态大语言模型（LMM）的基础能力之一，受到广泛关注。然而，现有benchmark存在核心问题：

结果导向的评估方式：MathVista、MathVerse等基准仅关注最终答案的正确性，忽略了推理过程中的内在问题，导致反直觉的评估结论（如MathVista发现LMM在大学级别问题上表现优于小学级别）

无法诊断推理能力的真正缺陷：正确答案不代表模型真正掌握了推理方法，错误答案也不代表模型缺乏基础知识

本文提出两个关键问题： - Q1：正确答案是否真正反映了LMM准确推理该类问题的能力？ - Q2：错误答案是否意味着LMM缺乏推理过程中的基础知识？

切入角度：借鉴人类数学学习方式——通过逐步掌握和泛化知识概念来解决复杂问题。将复合问题分解为基于知识概念的子问题，通过对比子问题和原始问题的结果来诊断LMM的推理缺陷。

核心 idea：基于知识概念的问题分解 + 四维推理评估指标，从"做对/做错"走向"为什么做对/做错"。

方法详解¶

整体框架¶

We-Math的构建与评估流程： 1. 构建层次化知识结构（5层67个知识概念） 2. 收集并标注6.5K视觉数学问题 3. 将复合问题按知识概念分解为独立子问题 4. 同时用LMM解答子问题和原始问题 5. 根据结果组合进行四维分类评估

关键设计¶

层次化数据集构建:
- 将数学问题分为5大类：平面图形、立体图形、图形变换与运动、位置与方向、测量
- 进一步分解为12种典型问题和67个终端知识概念
- 严格控制每个终端节点包含10-40个样本，确保数据均衡
- 所有6.5K问题来源于公开权威数学网站，3名专家标注知识概念，交叉验证确保标注一致性
- 按解题步数分为一步、两步和三步问题
基于知识的问题分解:
- 对于含M个知识概念的复合问题，由专家逐步分解为M个一步子问题
- 每个子问题只涉及单一知识概念
- 通过递归计算条件c_i^m来保持逻辑连贯性：c_i^m = c_i^{m-1} + a_i^{m-1}
- 约束条件：最后一个子问题的题目和答案等于原始问题的题目和答案
- 选取1.5K高质量多知识概念问题进行分解
四维推理评估指标（核心贡献）:
- IK（知识不足）：部分子问题错误 + 复合问题错误。模型对单一知识概念掌握不足
- IG（泛化不足）：所有子问题正确 + 复合问题错误。模型掌握了单个知识但难以综合运用
- CM（完全掌握）：所有子问题正确 + 复合问题也正确。结果可靠且准确
- RM（死记硬背）：部分子问题错误 + 复合问题正确。违背人类逻辑推理直觉
- 建立推理能力层次：IK < IG < CM
- 引入宽松/严格两种RM判定标准
- 最终推理置信度得分：Score_avg = α·S_IK + β·S_IG + S_CM（默认α=0, β=0.5）
知识概念增强策略（KCA）:
- 针对IK问题的启发式解决方案
- 为67个知识概念创建知识卡片，内容来源于欧几里得《几何原本》、Wikipedia和教科书
- 每张卡片包含精确定义和关键知识提示
- 在推理时将相关知识卡片提供给LMM

损失函数 / 训练策略¶

本文为评估基准，不涉及模型训练。评估采用： - testmini集：1740样本（1215一步 + 360两步 + 165三步） - 统一转换为多选题格式，使用正则匹配预测 - 引入额外的"不确定"选项防止模型从选项推断答案

实验关键数据¶

主实验¶

数据集	指标	GPT-4o	LLaVA-NeXT-110B	InternVL-Chat-V1.5
S1(一步)	Accuracy	72.84%	53.74%	49.38%
S2(两步)	Accuracy	58.06%	36.94%	30.56%
S3(三步)	Accuracy	43.64%	31.52%	28.48%

四维指标（严格指标）¶

模型	AVG↑	IK↓	IG↓	CM↑	RM↓
GPT-4o	42.86%	31.24%	15.24%	35.24%	34.16%
LLaVA-NeXT-110B	19.24%	50.29%	14.48%	12.00%	65.95%
LLaVA-1.6-7B	3.33%	78.29%	2.48%	2.10%	89.11%

KCA效果¶

模型	无KCA (AVG strict)	有KCA (AVG strict)	说明
所有LMM均值	-	-	KCA显著缓解IK问题但对IG改善有限

关键发现¶

知识概念数与性能负相关：GPT-4o准确率从S1的72.84%骤降至S3的43.64%，其他模型降幅更大
IK是LMM最大的薄弱环节：几乎所有LMM都显示严重的知识不足问题，小模型尤为突出（LLaVA-1.6-7B和DeepSeek-VL-1.3B超过350个IK问题）
GPT-4o率先进入知识泛化阶段：其IK问题相比LLaVA-NeXT-110B减少19.05%，但IG比例最高，说明核心挑战从知识获取转向知识泛化
RM问题普遍存在：多数开源LMM在宽松指标下仍有约25%的RM比例，G-LLaVA-13B高达35.98%。GPT-4o在宽松指标下RM<2%
参数压缩潜力大：Phi3-Vision-4.2B和MiniCPM-Llama3-V 2.5在更小参数量下展现出与LLaVA-NeXT-72B相当的性能
LMM擅长计算但在精细测量上困难：角度和长度的测量、单位换算是痛点

亮点与洞察¶

四维评估指标设计精巧，从"知识不足→泛化不足→完全掌握"建立了清晰的推理能力层次
"死记硬背"（RM）指标揭示了一个反直觉现象：模型能解复合题却解不了子问题，质疑了当前LMM是否真正具备数学推理能力
严格/宽松两种RM标准的设计考虑了模型不稳定性的影响
KCA策略验证了知识补充对缓解IK问题的有效性，但泛化能力需要更根本的改进
错误分析发现视觉错误集中在特定概念（如"角度理解"），指出需要增强视觉编码器的细粒度测量能力

局限与展望¶

benchmark主要覆盖初等数学，高等数学和更复杂的推理类型未涉及
问题分解目前依赖人工专家标注，扩展性有限。可探索利用LLM辅助自动分解
四维指标中RM的定义较为二元化，缺乏对"部分RM"情况的连续度量
仅评估了选择题格式，未覆盖开放式回答的推理评估
可进一步研究如何从IG阶段提升到CM阶段的训练策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 四维推理评估指标是全新贡献，基于知识概念的问题分解评估方式开创先河
实验充分度: ⭐⭐⭐⭐⭐ 17个LMM的全面评估，覆盖闭源和开源模型，多维度分析深入
写作质量: ⭐⭐⭐⭐ 论文结构清晰，图表丰富，但部分公式与文字描述有冗余
价值: ⭐⭐⭐⭐⭐ 改变了多模态数学推理评估的范式，四维指标和知识结构对社区有长期参考价值