跳转至

MMSciBench: Benchmarking Language Models on Chinese Multimodal Scientific Problems

会议: ACL 2025
arXiv: 2503.01891
代码: GitHub | HuggingFace
领域: multimodal_vlm
关键词: 科学推理基准, 多模态评估, 中文科学题, 视觉-语言模型, 数学物理推理

一句话总结

提出 MMSciBench,一个包含 4,482 道中文高中数学和物理题目的多模态科学推理基准,涵盖选择题和问答题、纯文本和图文配对两种模态,并带有人工标注难度等级和三级知识分类体系;评估显示最强模型 Gemini 1.5 Pro 002 仅达 63.77% 准确率,且在图文题上性能大幅下降(36.28 个百分点差距)。

研究背景与动机

大语言模型(LLM)和视觉-语言模型(LVLM)在众多任务上展现了强大能力,但其科学推理能力——尤其是在多模态场景下——尚未得到充分评估。现有科学基准存在三大不足:

缺乏多模态评估:大多数科学基准仅包含纯文本题目,无法评估模型的视觉-文本联合推理能力

领域覆盖有限:现有数据集要么过于聚焦单一学科,要么跨学科但缺乏系统性,难以评估特定学科内的核心概念理解

评估粒度不足:缺少人工标注的难度等级和结构化知识分类,难以分析模型在不同复杂度和知识域上的表现差异

此外,中文科学推理基准尤为稀缺。GAOKAO-Bench 和 GAOKAO-MM 分别仅有 3K 和 650 道题,且缺少细粒度知识分类。这促使作者构建一个兼顾规模、质量、多模态和细粒度评估的中文科学基准。

方法详解

1. 数据收集与质量控制

MMSciBench 的数据由 K-12 教师原始标注,每道题包含: - 题目文本(中文) - 详细逐步解题过程和最终答案 - 人工标注的难度分数(0–1 标准化) - 知识点标签 - 元数据(题型、模态、学科)

质量控制流程: - 过滤信息不完整或重复的题目 - 仅保留难度分数 \(\geq 0.7\) 的高难度题目 - 限制每题最多一张图片以保持评估一致性 - 使用 GPT-4o 进行三级知识分类标注,再由课程专家人工验证 - 最终得到 4,482 道题目-解答对

2. 数据集结构设计

题型维度

题型 数学 物理 总计
选择题(MCQ) 760 2,707 3,467
问答题(Q&A) 516 499 1,015

模态维度

模态 数学 物理 总计
图文配对 457 710 1,167
纯文本 819 2,496 3,315

3. 三级知识分类体系

  • Domain(领域):核心学科领域,如数学的"集合"、"函数",物理的"经典力学"、"电动力学"、"量子力学"
  • Module(模块):领域下的关键主题,如"概率与统计"、"机械运动与物理模型"
  • Chapter(章节):最细粒度,如"指数函数"、"三角函数"、"胡克定律"、"共点力平衡条件"

4. 评估框架

  • 指标:准确率(仅评估最终答案正确性)
  • 评判方式:使用 GPT-4o 作为自动评估器,将模型答案与标准答案对比。经 180 道题的迭代校准,GPT-4o 评判与人工评估的一致率达 97.22%
  • 提示设计:零样本设置,使用统一的提示模板,不针对特定模型优化,不提供额外知识点信息

实验关键数据

表1:各模型总体及分学科准确率

模型 数学 物理 总体
Gemini 1.5 Pro 002 56.74% 66.56% 63.77%
Qwen2-VL-72B-Instruct 35.50% 64.32% 56.11%
Claude 3.5 Sonnet 37.38% 60.54% 53.95%
GPT-4o 35.97% 56.89% 50.94%
Llama-3.2-90B-Vision-Instruct 16.69% 36.96% 31.19%
Qwen2.5-Math-72B-Instruct 57.39%*
DeepSeekMath-7B-Instruct 21.86%*
o1 67.40%†
Claude 3.7 Sonnet 37.64%†

*仅纯文本数学题;†仅图文数学题

表2:纯文本 vs 图文配对准确率对比

模型 数学-纯文本 数学-图文 物理-纯文本 物理-图文 总体-纯文本 总体-图文
Gemini 1.5 Pro 002 69.60% 33.70% 74.40% 39.01% 73.21% 36.93%
Qwen2-VL-72B-Instruct 41.39% 24.95% 72.48% 35.63% 64.80% 31.45%
Claude 3.5 Sonnet 44.57% 24.51% 67.75% 35.21% 62.02% 31.02%
GPT-4o 44.69% 20.35% 64.10% 31.55% 59.31% 27.16%
Llama-3.2-90B-Vision 19.54% 11.60% 42.83% 16.34% 37.07% 14.48%

关键发现:所有 LVLM 在图文题上的准确率均大幅低于纯文本题。Gemini 1.5 Pro 002 的纯文本总体准确率为 73.21%,而图文题仅 36.93%,差距高达 36.28 个百分点

表3:MCQ vs Q&A 准确率对比(去除随机猜测基线后)

模型 MCQ(总体) Q&A(总体) MCQ 超出随机基线
Gemini 1.5 Pro 002 68.82% 46.50% +47.96%
Qwen2-VL-72B-Instruct 65.71% 23.35% +44.85%
Claude 3.5 Sonnet 61.55% 27.98% +40.69%
GPT-4o 57.51% 28.47% +36.65%
Llama-3.2-90B-Vision 37.96% 8.08% +17.10%

Gemini 1.5 Pro 002 在 Q&A 题上的准确率比 MCQ 低 22.32 个百分点,表明开放式问答显著更具挑战性。

表4:Chain-of-Thought 提示效果

模型 默认(中文) CoT 中文 CoT 英文
Llama-3.2-90B-Vision 31.19% 33.24% 38.00%
GPT-4o 50.94% 50.85% 52.86%
Claude 3.5 Sonnet 53.95% 54.42% 55.40%
Gemini 1.5 Pro 002 63.77% 63.61% 62.25%

大多数模型在使用英文 CoT 推理中文题目时表现提升,但 Gemini 反而下降,可能因其对问答语言一致性更敏感。

关键发现

错误类型分析

对所有模型均回答错误的题目进行深入分析(240 个案例),错误分布为: - 推理错误:77.1%(最主要瓶颈) - 计算错误:11.3% - 视觉误读:7.5% - 信息整合失败:2.5% - 文本误解:1.7%

推理错误占绝对主导地位,表明当前模型在复杂多步科学推理上存在根本性不足。

跨知识点分析

  • 模型在不同子领域的表现差异显著:Gemini 在多数领域领先,但在"电动力学-磁场"子领域落后于 Claude 和 GPT-4o
  • 所有模型普遍薄弱的领域:物理的"电磁感应及其应用"、数学的"几何与代数"和"函数-初步知识"
  • 物理整体准确率高于数学,部分原因在于物理中纯文本题占比更高

亮点

  • 多模态 + 多题型:同时覆盖纯文本和图文配对、选择题和问答题四种组合,支持全面的交叉分析
  • 三级知识分类体系:Domain→Module→Chapter 的层级分类实现了细粒度的能力诊断,可定位模型在特定知识点上的不足
  • 人工标注难度:所有题目附带 K-12 教师标注的标准化难度分数,筛选 ≥0.7 保证了基准的挑战性
  • 详细解题过程:每题配有逐步解题说明,支持错误定位和模型改进研究
  • 多维度分析:不仅报告总体准确率,还从学科、题型、模态、知识点、CoT 效果、错误类型等多维度深入剖析

局限与展望

  1. 学科范围有限:仅覆盖高中数学和物理,未包含化学、生物等学科,也未涉及大学或竞赛级别内容
  2. 仅评估最终答案:不考虑中间推理步骤的正确性,可能掩盖模型推理过程中的重要差异
  3. 语言单一:以中文为主,英文训练为主的模型可能处于不利地位;文化和语言偏差可能影响公平性
  4. 数据集规模适中:4,482 道题相比大规模基准仍较小;严格的难度过滤(≥0.7)可能排除了有价值的边界案例
  5. GPT-4o 评判局限:尽管一致率达 97.22%,但自动评估器可能存在系统性偏差,如对不完整答案过于宽容、复杂数学表达式等价判断不准确

与相关工作的对比

基准 学科 模态 语言 难度 规模 知识分类 解题过程
GAOKAO-Bench 数/理/其他 纯文本 中文 高中 3K
GAOKAO-MM 数/理/其他 文本+图文 中文 高中 650
OlympiadBench 数/物 文本+图文 中英 竞赛 8K
SciBench 数/理/其他 文本+图文 英文 大学 869
M3Exam 多学科 文本+图文 多语言 K-12 12K 仅答案
EXAMS-V 多学科(20) 图文 多语言 中学 21K 仅答案
MMSciBench 数/物 文本+图文 中文 高中 4.5K ✓(三级)

MMSciBench 在中文科学基准中独特地结合了多模态评估、三级知识分类、人工难度标注和详细解题过程,填补了现有基准在细粒度评估能力上的空白。

评分

  • 新颖性: ⭐⭐⭐ — 基准设计理念扎实但以数据集贡献为主,方法创新有限
  • 实验充分度: ⭐⭐⭐⭐⭐ — 9 个模型、多维度分析(学科/题型/模态/知识点/CoT/错误类型),非常全面
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,表格和图表丰富,分析角度多样
  • 实用价值: ⭐⭐⭐⭐ — 为中文科学推理评估提供了高质量基准,三级分类体系便于精细诊断

相关论文