We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?¶
会议: ACL 2025
arXiv: 2407.01284
代码: We-Math/We-Math
领域: 多模态VLM
关键词: 视觉数学推理, benchmark, 知识概念分解, 过程评估, 大规模多模态模型
一句话总结¶
本文提出We-Math基准,首次通过将复合数学问题按知识概念分解为子问题,引入IK/IG/CM/RM四维指标来层次化评估LMM的推理过程(而非仅看最终结果),揭示了LMM普遍存在知识不足(IK)问题,且GPT-4o是首个从IK阶段迈入知识泛化(IG)阶段的模型。
研究背景与动机¶
视觉数学推理是多模态大语言模型(LMM)的基础能力之一,受到广泛关注。然而,现有benchmark存在核心问题:
结果导向的评估方式:MathVista、MathVerse等基准仅关注最终答案的正确性,忽略了推理过程中的内在问题,导致反直觉的评估结论(如MathVista发现LMM在大学级别问题上表现优于小学级别)
无法诊断推理能力的真正缺陷:正确答案不代表模型真正掌握了推理方法,错误答案也不代表模型缺乏基础知识
本文提出两个关键问题: - Q1:正确答案是否真正反映了LMM准确推理该类问题的能力? - Q2:错误答案是否意味着LMM缺乏推理过程中的基础知识?
切入角度:借鉴人类数学学习方式——通过逐步掌握和泛化知识概念来解决复杂问题。将复合问题分解为基于知识概念的子问题,通过对比子问题和原始问题的结果来诊断LMM的推理缺陷。
核心 idea:基于知识概念的问题分解 + 四维推理评估指标,从"做对/做错"走向"为什么做对/做错"。
方法详解¶
整体框架¶
We-Math的构建与评估流程: 1. 构建层次化知识结构(5层67个知识概念) 2. 收集并标注6.5K视觉数学问题 3. 将复合问题按知识概念分解为独立子问题 4. 同时用LMM解答子问题和原始问题 5. 根据结果组合进行四维分类评估
关键设计¶
-
层次化数据集构建:
- 将数学问题分为5大类:平面图形、立体图形、图形变换与运动、位置与方向、测量
- 进一步分解为12种典型问题和67个终端知识概念
- 严格控制每个终端节点包含10-40个样本,确保数据均衡
- 所有6.5K问题来源于公开权威数学网站,3名专家标注知识概念,交叉验证确保标注一致性
- 按解题步数分为一步、两步和三步问题
-
基于知识的问题分解:
- 对于含M个知识概念的复合问题,由专家逐步分解为M个一步子问题
- 每个子问题只涉及单一知识概念
- 通过递归计算条件c_i^m来保持逻辑连贯性:c_i^m = c_i^{m-1} + a_i^{m-1}
- 约束条件:最后一个子问题的题目和答案等于原始问题的题目和答案
- 选取1.5K高质量多知识概念问题进行分解
-
四维推理评估指标(核心贡献):
- IK(知识不足):部分子问题错误 + 复合问题错误。模型对单一知识概念掌握不足
- IG(泛化不足):所有子问题正确 + 复合问题错误。模型掌握了单个知识但难以综合运用
- CM(完全掌握):所有子问题正确 + 复合问题也正确。结果可靠且准确
- RM(死记硬背):部分子问题错误 + 复合问题正确。违背人类逻辑推理直觉
- 建立推理能力层次:IK < IG < CM
- 引入宽松/严格两种RM判定标准
- 最终推理置信度得分:Score_avg = α·S_IK + β·S_IG + S_CM(默认α=0, β=0.5)
-
知识概念增强策略(KCA):
- 针对IK问题的启发式解决方案
- 为67个知识概念创建知识卡片,内容来源于欧几里得《几何原本》、Wikipedia和教科书
- 每张卡片包含精确定义和关键知识提示
- 在推理时将相关知识卡片提供给LMM
损失函数 / 训练策略¶
本文为评估基准,不涉及模型训练。评估采用: - testmini集:1740样本(1215一步 + 360两步 + 165三步) - 统一转换为多选题格式,使用正则匹配预测 - 引入额外的"不确定"选项防止模型从选项推断答案
实验关键数据¶
主实验¶
| 数据集 | 指标 | GPT-4o | LLaVA-NeXT-110B | InternVL-Chat-V1.5 |
|---|---|---|---|---|
| S1(一步) | Accuracy | 72.84% | 53.74% | 49.38% |
| S2(两步) | Accuracy | 58.06% | 36.94% | 30.56% |
| S3(三步) | Accuracy | 43.64% | 31.52% | 28.48% |
四维指标(严格指标)¶
| 模型 | AVG↑ | IK↓ | IG↓ | CM↑ | RM↓ |
|---|---|---|---|---|---|
| GPT-4o | 42.86% | 31.24% | 15.24% | 35.24% | 34.16% |
| LLaVA-NeXT-110B | 19.24% | 50.29% | 14.48% | 12.00% | 65.95% |
| LLaVA-1.6-7B | 3.33% | 78.29% | 2.48% | 2.10% | 89.11% |
KCA效果¶
| 模型 | 无KCA (AVG strict) | 有KCA (AVG strict) | 说明 |
|---|---|---|---|
| 所有LMM均值 | - | - | KCA显著缓解IK问题但对IG改善有限 |
关键发现¶
- 知识概念数与性能负相关:GPT-4o准确率从S1的72.84%骤降至S3的43.64%,其他模型降幅更大
- IK是LMM最大的薄弱环节:几乎所有LMM都显示严重的知识不足问题,小模型尤为突出(LLaVA-1.6-7B和DeepSeek-VL-1.3B超过350个IK问题)
- GPT-4o率先进入知识泛化阶段:其IK问题相比LLaVA-NeXT-110B减少19.05%,但IG比例最高,说明核心挑战从知识获取转向知识泛化
- RM问题普遍存在:多数开源LMM在宽松指标下仍有约25%的RM比例,G-LLaVA-13B高达35.98%。GPT-4o在宽松指标下RM<2%
- 参数压缩潜力大:Phi3-Vision-4.2B和MiniCPM-Llama3-V 2.5在更小参数量下展现出与LLaVA-NeXT-72B相当的性能
- LMM擅长计算但在精细测量上困难:角度和长度的测量、单位换算是痛点
亮点与洞察¶
- 四维评估指标设计精巧,从"知识不足→泛化不足→完全掌握"建立了清晰的推理能力层次
- "死记硬背"(RM)指标揭示了一个反直觉现象:模型能解复合题却解不了子问题,质疑了当前LMM是否真正具备数学推理能力
- 严格/宽松两种RM标准的设计考虑了模型不稳定性的影响
- KCA策略验证了知识补充对缓解IK问题的有效性,但泛化能力需要更根本的改进
- 错误分析发现视觉错误集中在特定概念(如"角度理解"),指出需要增强视觉编码器的细粒度测量能力
局限与展望¶
- benchmark主要覆盖初等数学,高等数学和更复杂的推理类型未涉及
- 问题分解目前依赖人工专家标注,扩展性有限。可探索利用LLM辅助自动分解
- 四维指标中RM的定义较为二元化,缺乏对"部分RM"情况的连续度量
- 仅评估了选择题格式,未覆盖开放式回答的推理评估
- 可进一步研究如何从IG阶段提升到CM阶段的训练策略
相关工作与启发¶
- MathVista、MathVerse等结果导向benchmark:We-Math通过知识分解提供了过程级评估的互补视角
- GSM8K、MATH等文本推理benchmark:We-Math将类似评估思想扩展到视觉数学推理
- 与AR-MCTS论文形成互补:We-Math作为评估工具,AR-MCTS作为解决方案
- 课程学习思想的应用:从子问题到复合问题的渐进评估与课程学习理念一致
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 四维推理评估指标是全新贡献,基于知识概念的问题分解评估方式开创先河
- 实验充分度: ⭐⭐⭐⭐⭐ 17个LMM的全面评估,覆盖闭源和开源模型,多维度分析深入
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图表丰富,但部分公式与文字描述有冗余
- 价值: ⭐⭐⭐⭐⭐ 改变了多模态数学推理评估的范式,四维指标和知识结构对社区有长期参考价值
相关论文¶
- [ACL 2025] OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
- [ACL 2025] Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents
- [ACL 2025] Burn After Reading: Do Multimodal Large Language Models Truly Capture Order of Events in Image Sequences?
- [ACL 2025] The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights
- [ACL 2025] CoSyn: Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation