跳转至

MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

会议: NeurIPS 2025 arXiv: 2505.10610 代码: GitHub 领域: 多模态VLM / 长上下文评估 关键词: long-context VLM, benchmark, multi-task evaluation, cross-modal tokenization, NIAH

一句话总结

构建首个全面的长上下文视觉语言模型(LCVLM)评估基准 MMLongBench——13,331 个样本覆盖 5 类下游任务、混合图像类型、5 级标准化输入长度(8K-128K tokens),评估 46 个模型后发现单任务性能是整体能力的弱代理,且强推理能力与长上下文性能正相关。

研究背景与动机

  1. 领域现状:VLM 的上下文窗口已扩展到 128K+ tokens(如 GPT-4o、Gemini-2.5),催生了能处理数百张图片和数千交错文本 token 的长上下文 VLM(LCVLM)。但评估基准严重滞后。
  2. 现有痛点
  3. 任务覆盖有限:现有基准只关注单一类型(如 MM-NIAH 只做针状搜索,MMLongBench-Doc 只做文档 VQA),但单一任务无法反映整体长上下文能力
  4. 图像类型单一:多数只包含自然图片或合成文档截图,不够全面
  5. 输入长度不统一:不同基准对"长度"的定义不一致——有的按图片数,有的按 token 数;且多数只提供单一长度
  6. 缺少重要任务:Visual RAG、many-shot ICL、摘要等实际应用场景完全缺席
  7. 核心矛盾:模型开发者需要知道"在哪个长度、哪种任务上"表现好/差,但现有基准不支持细粒度分析。
  8. 本文要解决什么? 构建覆盖多任务、多图像类型、多长度级别的统一评估基准。
  9. 切入角度:统一的跨模态 token 计量方案(vision patches + text tokens)+ 5 级标准化长度 + 5 类下游任务。
  10. 核心idea一句话:用统一的长度控制和多元任务覆盖,为 LCVLM 评估提供缺失的基础设施。

方法详解

整体框架

MMLongBench 包含 5 类任务 × 5 级长度 × 混合图像类型: - Visual RAG:从长上下文 Wikipedia 段落中检索信息回答视觉问题 - NIAH:在"干草堆"图片序列中找到插入的"针" - Many-Shot ICL:基于数百个上下文示例进行图像分类 - Summarization:对 PDF 文档进行摘要 - DocVQA:对长文档进行视觉问答

关键设计

  1. 跨模态 Token 计量(Cross-Modal Tokenization):
  2. 做什么:统一 vision patches 和 text tokens 的计量方式
  3. 核心思路:图像 token 数 = 视觉编码器的 patch 数(经过 2×2 pixel unshuffle 后),与文本 token 一起构成总长度
  4. 设计动机:与 Qwen2.5-VL、InternVL3 等最新模型的实现一致,确保长度指标在不同模型间可比

  5. 5 级标准化长度(8K/16K/32K/64K/128K):

  6. 做什么:每个样本都配备 5 种不同长度的上下文版本
  7. 核心思路:通过填充/截断上下文材料来精确控制总 token 数
  8. 设计动机:允许系统分析性能随长度变化的趋势,类似文本领域的长上下文评估实践

  9. 多元图像类型覆盖:

  10. 做什么:同时包含自然图像(照片、场景)和合成图像(文档截图、网页、应用截图)
  11. 核心思路:不同任务自然引入不同图像类型——NIAH/ICL 用自然图像,DocVQA/Summarization 用合成图像,VRAG 两者兼有
  12. 设计动机:避免因图像类型偏差导致的评估盲区

  13. 全面模型评估(46 个模型):

  14. 做什么:评估闭源(GPT-4o、Gemini 等)和开源(LLaVA、Qwen-VL、InternVL 等)模型
  15. 核心思路:统一评估协议,控制变量进行公平对比
  16. 设计动机:提供当前 LCVLM 能力的全景视图

实验关键数据

主要发现

发现 详情
单任务 → 整体 弱代理关系:在 NIAH 上表现好不代表在 VRAG 或 ICL 上也好
闭源 vs 开源 闭源模型整体领先,但两类都在 128K 时大幅衰退
推理 vs 长上下文 正相关:Gemini thinking 版本明显优于标准版本
OCR 瓶颈 OCR 能力和跨模态检索能力是当前 LCVLM 的主要瓶颈
长度敏感性 多数模型从 32K 开始性能显著下降

任务级别结果(选取代表性模型)

模型 VRAG NIAH ICL Summ DocVQA 整体
GPT-4o 最高档
Gemini-2.5-Flash 高档
Qwen2.5-VL-72B 中档
InternVL3-8B 低档

长度敏感性

长度 平均性能(归一化)
8K 1.00(基线)
16K ~0.95
32K ~0.85
64K ~0.70
128K ~0.55

关键数字

  • 13,331 个评估样本
  • 5 类下游任务
  • 46 个评估模型
  • 5 级标准化长度(8K-128K)
  • 混合图像类型(自然+合成)

亮点与洞察

  • "单任务是整体的弱代理":这一发现警示了仅用 NIAH 评估长上下文能力的不充分性,推动了多任务评估的必要性
  • 推理实力 ≈ 长上下文实力:Gemini thinking 版本的优势说明显式推理能力有助于处理长上下文——这对 LCVLM 的设计有启示意义
  • 统一长度控制:首次在视觉语言领域实现与文本领域同等严格的长度控制标准
  • 可扩展性:所有数据集都设计为可轻松扩展到更长上下文(256K+)

局限性 / 可改进方向

  • 任务难度未细分:同一任务内未区分简单/困难子集
  • 仅英文评估:缺少多语言长上下文评估
  • 视频未纳入:长视频理解是另一个重要的长上下文场景,但未包含
  • 人类基线缺失:缺少人类在相同任务上的表现作为上界参考

相关工作与启发

  • vs MM-NIAH: 只覆盖 NIAH 一种任务;MMLongBench 覆盖 5 种
  • vs MMLongBench-Doc: 只做文档 VQA 且无长度控制;本文全面覆盖 + 严格长度控制
  • vs MileBench: 声称全面但实际平均长度仅约 9K tokens,不是真正的长上下文基准

评分

  • 新颖性: ⭐⭐⭐⭐ 首个全面的 LCVLM 多任务长上下文评估基准
  • 实验充分度: ⭐⭐⭐⭐⭐ 46 个模型 + 5 任务 + 5 长度 + 详细错误分析
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,与现有基准的对比表格很有说服力
  • 价值: ⭐⭐⭐⭐⭐ 填补了 LCVLM 评估的重要空白,将成为标准基准