MMSciBench: Benchmarking Language Models on Chinese Multimodal Scientific Problems¶

会议: ACL 2025
arXiv: 2503.01891
代码: GitHub | HuggingFace
领域: multimodal_vlm
关键词: 科学推理基准, 多模态评估, 中文科学题, 视觉-语言模型, 数学物理推理

一句话总结¶

提出 MMSciBench，一个包含 4,482 道中文高中数学和物理题目的多模态科学推理基准，涵盖选择题和问答题、纯文本和图文配对两种模态，并带有人工标注难度等级和三级知识分类体系；评估显示最强模型 Gemini 1.5 Pro 002 仅达 63.77% 准确率，且在图文题上性能大幅下降（36.28 个百分点差距）。

研究背景与动机¶

大语言模型（LLM）和视觉-语言模型（LVLM）在众多任务上展现了强大能力，但其科学推理能力——尤其是在多模态场景下——尚未得到充分评估。现有科学基准存在三大不足：

缺乏多模态评估：大多数科学基准仅包含纯文本题目，无法评估模型的视觉-文本联合推理能力

领域覆盖有限：现有数据集要么过于聚焦单一学科，要么跨学科但缺乏系统性，难以评估特定学科内的核心概念理解

评估粒度不足：缺少人工标注的难度等级和结构化知识分类，难以分析模型在不同复杂度和知识域上的表现差异

此外，中文科学推理基准尤为稀缺。GAOKAO-Bench 和 GAOKAO-MM 分别仅有 3K 和 650 道题，且缺少细粒度知识分类。这促使作者构建一个兼顾规模、质量、多模态和细粒度评估的中文科学基准。

方法详解¶

1. 数据收集与质量控制¶

MMSciBench 的数据由 K-12 教师原始标注，每道题包含： - 题目文本（中文） - 详细逐步解题过程和最终答案 - 人工标注的难度分数（0–1 标准化） - 知识点标签 - 元数据（题型、模态、学科）

质量控制流程： - 过滤信息不完整或重复的题目 - 仅保留难度分数 \(\geq 0.7\) 的高难度题目 - 限制每题最多一张图片以保持评估一致性 - 使用 GPT-4o 进行三级知识分类标注，再由课程专家人工验证 - 最终得到 4,482 道题目-解答对

2. 数据集结构设计¶

题型维度：

题型	数学	物理	总计
选择题（MCQ）	760	2,707	3,467
问答题（Q&A）	516	499	1,015

模态维度：

模态	数学	物理	总计
图文配对	457	710	1,167
纯文本	819	2,496	3,315

3. 三级知识分类体系¶

Domain（领域）：核心学科领域，如数学的"集合"、"函数"，物理的"经典力学"、"电动力学"、"量子力学"
Module（模块）：领域下的关键主题，如"概率与统计"、"机械运动与物理模型"
Chapter（章节）：最细粒度，如"指数函数"、"三角函数"、"胡克定律"、"共点力平衡条件"

4. 评估框架¶

指标：准确率（仅评估最终答案正确性）
评判方式：使用 GPT-4o 作为自动评估器，将模型答案与标准答案对比。经 180 道题的迭代校准，GPT-4o 评判与人工评估的一致率达 97.22%
提示设计：零样本设置，使用统一的提示模板，不针对特定模型优化，不提供额外知识点信息

实验关键数据¶

表1：各模型总体及分学科准确率¶

模型	数学	物理	总体
Gemini 1.5 Pro 002	56.74%	66.56%	63.77%
Qwen2-VL-72B-Instruct	35.50%	64.32%	56.11%
Claude 3.5 Sonnet	37.38%	60.54%	53.95%
GPT-4o	35.97%	56.89%	50.94%
Llama-3.2-90B-Vision-Instruct	16.69%	36.96%	31.19%
Qwen2.5-Math-72B-Instruct	57.39%*	—	—
DeepSeekMath-7B-Instruct	21.86%*	—	—
o1	67.40%†	—	—
Claude 3.7 Sonnet	37.64%†	—	—

*仅纯文本数学题；†仅图文数学题

表2：纯文本 vs 图文配对准确率对比¶

模型	数学-纯文本	数学-图文	物理-纯文本	物理-图文	总体-纯文本	总体-图文
Gemini 1.5 Pro 002	69.60%	33.70%	74.40%	39.01%	73.21%	36.93%
Qwen2-VL-72B-Instruct	41.39%	24.95%	72.48%	35.63%	64.80%	31.45%
Claude 3.5 Sonnet	44.57%	24.51%	67.75%	35.21%	62.02%	31.02%
GPT-4o	44.69%	20.35%	64.10%	31.55%	59.31%	27.16%
Llama-3.2-90B-Vision	19.54%	11.60%	42.83%	16.34%	37.07%	14.48%

关键发现：所有 LVLM 在图文题上的准确率均大幅低于纯文本题。Gemini 1.5 Pro 002 的纯文本总体准确率为 73.21%，而图文题仅 36.93%，差距高达 36.28 个百分点。

表3：MCQ vs Q&A 准确率对比（去除随机猜测基线后）¶

模型	MCQ（总体）	Q&A（总体）	MCQ 超出随机基线
Gemini 1.5 Pro 002	68.82%	46.50%	+47.96%
Qwen2-VL-72B-Instruct	65.71%	23.35%	+44.85%
Claude 3.5 Sonnet	61.55%	27.98%	+40.69%
GPT-4o	57.51%	28.47%	+36.65%
Llama-3.2-90B-Vision	37.96%	8.08%	+17.10%

Gemini 1.5 Pro 002 在 Q&A 题上的准确率比 MCQ 低 22.32 个百分点，表明开放式问答显著更具挑战性。

表4：Chain-of-Thought 提示效果¶

模型	默认（中文）	CoT 中文	CoT 英文
Llama-3.2-90B-Vision	31.19%	33.24%	38.00%
GPT-4o	50.94%	50.85%	52.86%
Claude 3.5 Sonnet	53.95%	54.42%	55.40%
Gemini 1.5 Pro 002	63.77%	63.61%	62.25%

大多数模型在使用英文 CoT 推理中文题目时表现提升，但 Gemini 反而下降，可能因其对问答语言一致性更敏感。

关键发现¶

错误类型分析¶

对所有模型均回答错误的题目进行深入分析（240 个案例），错误分布为： - 推理错误：77.1%（最主要瓶颈） - 计算错误：11.3% - 视觉误读：7.5% - 信息整合失败：2.5% - 文本误解：1.7%

推理错误占绝对主导地位，表明当前模型在复杂多步科学推理上存在根本性不足。

跨知识点分析¶

模型在不同子领域的表现差异显著：Gemini 在多数领域领先，但在"电动力学-磁场"子领域落后于 Claude 和 GPT-4o
所有模型普遍薄弱的领域：物理的"电磁感应及其应用"、数学的"几何与代数"和"函数-初步知识"
物理整体准确率高于数学，部分原因在于物理中纯文本题占比更高

亮点¶

多模态 + 多题型：同时覆盖纯文本和图文配对、选择题和问答题四种组合，支持全面的交叉分析
三级知识分类体系：Domain→Module→Chapter 的层级分类实现了细粒度的能力诊断，可定位模型在特定知识点上的不足
人工标注难度：所有题目附带 K-12 教师标注的标准化难度分数，筛选 ≥0.7 保证了基准的挑战性
详细解题过程：每题配有逐步解题说明，支持错误定位和模型改进研究
多维度分析：不仅报告总体准确率，还从学科、题型、模态、知识点、CoT 效果、错误类型等多维度深入剖析

局限与展望¶

学科范围有限：仅覆盖高中数学和物理，未包含化学、生物等学科，也未涉及大学或竞赛级别内容
仅评估最终答案：不考虑中间推理步骤的正确性，可能掩盖模型推理过程中的重要差异
语言单一：以中文为主，英文训练为主的模型可能处于不利地位；文化和语言偏差可能影响公平性
数据集规模适中：4,482 道题相比大规模基准仍较小；严格的难度过滤（≥0.7）可能排除了有价值的边界案例
GPT-4o 评判局限：尽管一致率达 97.22%，但自动评估器可能存在系统性偏差，如对不完整答案过于宽容、复杂数学表达式等价判断不准确

与相关工作的对比¶

基准	学科	模态	语言	难度	规模	知识分类	解题过程
GAOKAO-Bench	数/理/其他	纯文本	中文	高中	3K	✗	✓
GAOKAO-MM	数/理/其他	文本+图文	中文	高中	650	✗	✓
OlympiadBench	数/物	文本+图文	中英	竞赛	8K	✓	✓
SciBench	数/理/其他	文本+图文	英文	大学	869	✓	✓
M3Exam	多学科	文本+图文	多语言	K-12	12K	✓	仅答案
EXAMS-V	多学科(20)	图文	多语言	中学	21K	✓	仅答案
MMSciBench	数/物	文本+图文	中文	高中	4.5K	✓（三级）	✓

MMSciBench 在中文科学基准中独特地结合了多模态评估、三级知识分类、人工难度标注和详细解题过程，填补了现有基准在细粒度评估能力上的空白。

评分¶

新颖性: ⭐⭐⭐ — 基准设计理念扎实但以数据集贡献为主，方法创新有限
实验充分度: ⭐⭐⭐⭐⭐ — 9 个模型、多维度分析（学科/题型/模态/知识点/CoT/错误类型），非常全面
写作质量: ⭐⭐⭐⭐ — 结构清晰，表格和图表丰富，分析角度多样
实用价值: ⭐⭐⭐⭐ — 为中文科学推理评估提供了高质量基准，三级分类体系便于精细诊断