MMSciBench: Benchmarking Language Models on Chinese Multimodal Scientific Problems¶
会议: ACL 2025
arXiv: 2503.01891
代码: GitHub | HuggingFace
领域: multimodal_vlm
关键词: 科学推理基准, 多模态评估, 中文科学题, 视觉-语言模型, 数学物理推理
一句话总结¶
提出 MMSciBench,一个包含 4,482 道中文高中数学和物理题目的多模态科学推理基准,涵盖选择题和问答题、纯文本和图文配对两种模态,并带有人工标注难度等级和三级知识分类体系;评估显示最强模型 Gemini 1.5 Pro 002 仅达 63.77% 准确率,且在图文题上性能大幅下降(36.28 个百分点差距)。
研究背景与动机¶
大语言模型(LLM)和视觉-语言模型(LVLM)在众多任务上展现了强大能力,但其科学推理能力——尤其是在多模态场景下——尚未得到充分评估。现有科学基准存在三大不足:
缺乏多模态评估:大多数科学基准仅包含纯文本题目,无法评估模型的视觉-文本联合推理能力
领域覆盖有限:现有数据集要么过于聚焦单一学科,要么跨学科但缺乏系统性,难以评估特定学科内的核心概念理解
评估粒度不足:缺少人工标注的难度等级和结构化知识分类,难以分析模型在不同复杂度和知识域上的表现差异
此外,中文科学推理基准尤为稀缺。GAOKAO-Bench 和 GAOKAO-MM 分别仅有 3K 和 650 道题,且缺少细粒度知识分类。这促使作者构建一个兼顾规模、质量、多模态和细粒度评估的中文科学基准。
方法详解¶
1. 数据收集与质量控制¶
MMSciBench 的数据由 K-12 教师原始标注,每道题包含: - 题目文本(中文) - 详细逐步解题过程和最终答案 - 人工标注的难度分数(0–1 标准化) - 知识点标签 - 元数据(题型、模态、学科)
质量控制流程: - 过滤信息不完整或重复的题目 - 仅保留难度分数 \(\geq 0.7\) 的高难度题目 - 限制每题最多一张图片以保持评估一致性 - 使用 GPT-4o 进行三级知识分类标注,再由课程专家人工验证 - 最终得到 4,482 道题目-解答对
2. 数据集结构设计¶
题型维度:
| 题型 | 数学 | 物理 | 总计 |
|---|---|---|---|
| 选择题(MCQ) | 760 | 2,707 | 3,467 |
| 问答题(Q&A) | 516 | 499 | 1,015 |
模态维度:
| 模态 | 数学 | 物理 | 总计 |
|---|---|---|---|
| 图文配对 | 457 | 710 | 1,167 |
| 纯文本 | 819 | 2,496 | 3,315 |
3. 三级知识分类体系¶
- Domain(领域):核心学科领域,如数学的"集合"、"函数",物理的"经典力学"、"电动力学"、"量子力学"
- Module(模块):领域下的关键主题,如"概率与统计"、"机械运动与物理模型"
- Chapter(章节):最细粒度,如"指数函数"、"三角函数"、"胡克定律"、"共点力平衡条件"
4. 评估框架¶
- 指标:准确率(仅评估最终答案正确性)
- 评判方式:使用 GPT-4o 作为自动评估器,将模型答案与标准答案对比。经 180 道题的迭代校准,GPT-4o 评判与人工评估的一致率达 97.22%
- 提示设计:零样本设置,使用统一的提示模板,不针对特定模型优化,不提供额外知识点信息
实验关键数据¶
表1:各模型总体及分学科准确率¶
| 模型 | 数学 | 物理 | 总体 |
|---|---|---|---|
| Gemini 1.5 Pro 002 | 56.74% | 66.56% | 63.77% |
| Qwen2-VL-72B-Instruct | 35.50% | 64.32% | 56.11% |
| Claude 3.5 Sonnet | 37.38% | 60.54% | 53.95% |
| GPT-4o | 35.97% | 56.89% | 50.94% |
| Llama-3.2-90B-Vision-Instruct | 16.69% | 36.96% | 31.19% |
| Qwen2.5-Math-72B-Instruct | 57.39%* | — | — |
| DeepSeekMath-7B-Instruct | 21.86%* | — | — |
| o1 | 67.40%† | — | — |
| Claude 3.7 Sonnet | 37.64%† | — | — |
*仅纯文本数学题;†仅图文数学题
表2:纯文本 vs 图文配对准确率对比¶
| 模型 | 数学-纯文本 | 数学-图文 | 物理-纯文本 | 物理-图文 | 总体-纯文本 | 总体-图文 |
|---|---|---|---|---|---|---|
| Gemini 1.5 Pro 002 | 69.60% | 33.70% | 74.40% | 39.01% | 73.21% | 36.93% |
| Qwen2-VL-72B-Instruct | 41.39% | 24.95% | 72.48% | 35.63% | 64.80% | 31.45% |
| Claude 3.5 Sonnet | 44.57% | 24.51% | 67.75% | 35.21% | 62.02% | 31.02% |
| GPT-4o | 44.69% | 20.35% | 64.10% | 31.55% | 59.31% | 27.16% |
| Llama-3.2-90B-Vision | 19.54% | 11.60% | 42.83% | 16.34% | 37.07% | 14.48% |
关键发现:所有 LVLM 在图文题上的准确率均大幅低于纯文本题。Gemini 1.5 Pro 002 的纯文本总体准确率为 73.21%,而图文题仅 36.93%,差距高达 36.28 个百分点。
表3:MCQ vs Q&A 准确率对比(去除随机猜测基线后)¶
| 模型 | MCQ(总体) | Q&A(总体) | MCQ 超出随机基线 |
|---|---|---|---|
| Gemini 1.5 Pro 002 | 68.82% | 46.50% | +47.96% |
| Qwen2-VL-72B-Instruct | 65.71% | 23.35% | +44.85% |
| Claude 3.5 Sonnet | 61.55% | 27.98% | +40.69% |
| GPT-4o | 57.51% | 28.47% | +36.65% |
| Llama-3.2-90B-Vision | 37.96% | 8.08% | +17.10% |
Gemini 1.5 Pro 002 在 Q&A 题上的准确率比 MCQ 低 22.32 个百分点,表明开放式问答显著更具挑战性。
表4:Chain-of-Thought 提示效果¶
| 模型 | 默认(中文) | CoT 中文 | CoT 英文 |
|---|---|---|---|
| Llama-3.2-90B-Vision | 31.19% | 33.24% | 38.00% |
| GPT-4o | 50.94% | 50.85% | 52.86% |
| Claude 3.5 Sonnet | 53.95% | 54.42% | 55.40% |
| Gemini 1.5 Pro 002 | 63.77% | 63.61% | 62.25% |
大多数模型在使用英文 CoT 推理中文题目时表现提升,但 Gemini 反而下降,可能因其对问答语言一致性更敏感。
关键发现¶
错误类型分析¶
对所有模型均回答错误的题目进行深入分析(240 个案例),错误分布为: - 推理错误:77.1%(最主要瓶颈) - 计算错误:11.3% - 视觉误读:7.5% - 信息整合失败:2.5% - 文本误解:1.7%
推理错误占绝对主导地位,表明当前模型在复杂多步科学推理上存在根本性不足。
跨知识点分析¶
- 模型在不同子领域的表现差异显著:Gemini 在多数领域领先,但在"电动力学-磁场"子领域落后于 Claude 和 GPT-4o
- 所有模型普遍薄弱的领域:物理的"电磁感应及其应用"、数学的"几何与代数"和"函数-初步知识"
- 物理整体准确率高于数学,部分原因在于物理中纯文本题占比更高
亮点¶
- 多模态 + 多题型:同时覆盖纯文本和图文配对、选择题和问答题四种组合,支持全面的交叉分析
- 三级知识分类体系:Domain→Module→Chapter 的层级分类实现了细粒度的能力诊断,可定位模型在特定知识点上的不足
- 人工标注难度:所有题目附带 K-12 教师标注的标准化难度分数,筛选 ≥0.7 保证了基准的挑战性
- 详细解题过程:每题配有逐步解题说明,支持错误定位和模型改进研究
- 多维度分析:不仅报告总体准确率,还从学科、题型、模态、知识点、CoT 效果、错误类型等多维度深入剖析
局限与展望¶
- 学科范围有限:仅覆盖高中数学和物理,未包含化学、生物等学科,也未涉及大学或竞赛级别内容
- 仅评估最终答案:不考虑中间推理步骤的正确性,可能掩盖模型推理过程中的重要差异
- 语言单一:以中文为主,英文训练为主的模型可能处于不利地位;文化和语言偏差可能影响公平性
- 数据集规模适中:4,482 道题相比大规模基准仍较小;严格的难度过滤(≥0.7)可能排除了有价值的边界案例
- GPT-4o 评判局限:尽管一致率达 97.22%,但自动评估器可能存在系统性偏差,如对不完整答案过于宽容、复杂数学表达式等价判断不准确
与相关工作的对比¶
| 基准 | 学科 | 模态 | 语言 | 难度 | 规模 | 知识分类 | 解题过程 |
|---|---|---|---|---|---|---|---|
| GAOKAO-Bench | 数/理/其他 | 纯文本 | 中文 | 高中 | 3K | ✗ | ✓ |
| GAOKAO-MM | 数/理/其他 | 文本+图文 | 中文 | 高中 | 650 | ✗ | ✓ |
| OlympiadBench | 数/物 | 文本+图文 | 中英 | 竞赛 | 8K | ✓ | ✓ |
| SciBench | 数/理/其他 | 文本+图文 | 英文 | 大学 | 869 | ✓ | ✓ |
| M3Exam | 多学科 | 文本+图文 | 多语言 | K-12 | 12K | ✓ | 仅答案 |
| EXAMS-V | 多学科(20) | 图文 | 多语言 | 中学 | 21K | ✓ | 仅答案 |
| MMSciBench | 数/物 | 文本+图文 | 中文 | 高中 | 4.5K | ✓(三级) | ✓ |
MMSciBench 在中文科学基准中独特地结合了多模态评估、三级知识分类、人工难度标注和详细解题过程,填补了现有基准在细粒度评估能力上的空白。
评分¶
- 新颖性: ⭐⭐⭐ — 基准设计理念扎实但以数据集贡献为主,方法创新有限
- 实验充分度: ⭐⭐⭐⭐⭐ — 9 个模型、多维度分析(学科/题型/模态/知识点/CoT/错误类型),非常全面
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,表格和图表丰富,分析角度多样
- 实用价值: ⭐⭐⭐⭐ — 为中文科学推理评估提供了高质量基准,三级分类体系便于精细诊断
相关论文¶
- [ACL 2025] AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models
- [ACL 2025] SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
- [ACL 2025] PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension
- [ACL 2025] Multimodal Coreference Resolution for Chinese Social Media Dialogues: Dataset and Benchmark Approach
- [ACL 2025] Table Understanding and (Multimodal) LLMs: A Cross-Domain Case Study on Scientific Tables