跳转至

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

会议: NeurIPS 2025 (Datasets & Benchmarks)
arXiv: 2505.13444
代码: 有
领域: 多模态VLM / Benchmark / 图表理解
关键词: chart QA, visual reasoning, benchmark, 图表理解, LVLM evaluation, human-model gap

一句话总结

构建ChartMuseum——一个包含1,162个专家标注问题的图表QA benchmark,专门评估LVLM的复杂视觉和文本推理能力。与现有图表benchmark(前沿模型接近饱和)不同,ChartMuseum揭示了巨大的模型-人类性能差距:人类93%准确率 vs Gemini-2.5-Pro仅63.0% vs 最佳开源Qwen2.5-VL-72B仅38.5%,且所有模型在视觉推理重的问题上掉点35-55%。

背景与动机

图表理解是VLM的独特挑战——需要同时进行复杂的文本推理(读数据、理解标签)和视觉推理(比较趋势、识别模式、空间关系)。但现有图表benchmark(如ChartQA)已接近前沿模型饱和,无法有效区分模型能力。更关键的是,现有benchmark偏向文本推理——很多问题可以通过OCR+文本推理解决而不真正需要视觉理解。

核心问题

当前LVLM是否真正具备图表的视觉推理能力(而非仅靠OCR+文本推理)?如何构建能暴露这种差距的benchmark?

方法详解

整体框架

ChartMuseum从两方面确保评估的挑战性:(1) 合成数据Case Study——用仅通过视觉推理可解的合成图表表明模型在视觉复杂度增加时急剧退化而人类稳健;(2) 真实世界Benchmark——1,162个专家标注的真实图表问题,覆盖多种推理类型和184个数据来源。

关键设计

  1. 视觉推理 vs 文本推理的分离评估:每个问题标注了主要依赖视觉推理还是文本推理。结果显示所有模型在视觉推理重的问题上性能下降35-55%——证明LVLM的"图表理解"高分很大程度上依赖文本推理而非真正的视觉理解。

  2. 来自真实世界的复杂图表:从184个来源收集真实图表(不是简单合成的),包含复杂布局、多图组合、注释丰富等真实世界特征。专家标注确保问题质量和答案准确性(1,162个问题)。

  3. 有效区分模型能力:不同于ChartQA等已饱和的benchmark,ChartMuseum成功区分了不同模型的能力——Gemini-2.5-Pro (63.0%) vs GPT-4o (~55%) vs Qwen2.5-VL-72B (38.5%),差距显著且有意义。

核心发现

  • 人类93% vs 最佳模型63.0%——30%的巨大差距仍存在
  • 视觉推理问题上所有模型掉点35-55%——LVLM的视觉推理能力远弱于文本推理
  • 视觉复杂度增加导致模型性能急剧下降而人类稳健
  • 定性错误分析揭示了LVLM在空间比较、趋势识别、颜色区分等方面的具体短板

实验关键数据

模型 Overall 视觉推理重 文本推理重 差距
人类 93% ~90% ~95% ~5%
Gemini-2.5-Pro 63.0% ~40% ~75% ~35%
Qwen2.5-VL-72B 38.5% ~20% ~55% ~35%
  • 最佳闭源模型仍有30%的人类差距
  • 最佳开源模型有55%的人类差距
  • 视觉推理 vs 文本推理的性能差距一致性地显著

亮点

  • 暴露了LVLM"图表理解"的真实水平:高分可能是靠OCR+文本推理,真正的视觉推理仍然很弱
  • 有效区分模型能力:解决了ChartQA等已饱和benchmark的问题
  • 93% vs 63%的惊人差距说明图表视觉推理是LVLM的重大未解决问题
  • 视觉推理掉点35-55%的发现对VLM社区有重要警示——不要被整体分数蒙蔽
  • NeurIPS Datasets & Benchmarks Track接收

局限性 / 可改进方向

  • 1,162个问题规模相对较小
  • 专家标注成本高,扩展性受限
  • 某些推理类型的覆盖可能不够均衡
  • 未提供训练集,仅作为评估benchmark

与相关工作的对比

  • vs. ChartQA:ChartQA已被前沿模型接近饱和;ChartMuseum有效区分模型能力
  • vs. MMMU:MMMU覆盖多学科;ChartMuseum专注图表深度视觉推理
  • vs. MathVista:MathVista关注数学推理;ChartMuseum关注视觉推理维度

启发与关联

  • 视觉推理弱于文本推理的发现与Feather the Throttle的benchmark批判呼应——很多benchmark不真正测试视觉能力
  • 图表视觉推理的提升可能需要LLaVA-CoT/Corvid等CoT增强方法的帮助

评分

  • 新颖性: ⭐⭐⭐⭐ 专注视觉推理维度的图表benchmark填补重要空白
  • 实验充分度: ⭐⭐⭐⭐⭐ 评估了多个闭源+开源模型,人类对照,定性错误分析
  • 写作质量: ⭐⭐⭐⭐ 发现有力,数据展示清晰
  • 价值: ⭐⭐⭐⭐ 为图表理解研究提供了更有区分度的评估工具