MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly¶

会议: NeurIPS 2025 arXiv: 2505.10610 代码: GitHub 领域: 多模态VLM / 长上下文评估 关键词: long-context VLM, benchmark, multi-task evaluation, cross-modal tokenization, NIAH

一句话总结¶

构建首个全面的长上下文视觉语言模型（LCVLM）评估基准 MMLongBench——13,331 个样本覆盖 5 类下游任务、混合图像类型、5 级标准化输入长度（8K-128K tokens），评估 46 个模型后发现单任务性能是整体能力的弱代理，且强推理能力与长上下文性能正相关。

研究背景与动机¶

领域现状：VLM 的上下文窗口已扩展到 128K+ tokens（如 GPT-4o、Gemini-2.5），催生了能处理数百张图片和数千交错文本 token 的长上下文 VLM（LCVLM）。但评估基准严重滞后。
现有痛点：
任务覆盖有限：现有基准只关注单一类型（如 MM-NIAH 只做针状搜索，MMLongBench-Doc 只做文档 VQA），但单一任务无法反映整体长上下文能力
图像类型单一：多数只包含自然图片或合成文档截图，不够全面
输入长度不统一：不同基准对"长度"的定义不一致——有的按图片数，有的按 token 数；且多数只提供单一长度
缺少重要任务：Visual RAG、many-shot ICL、摘要等实际应用场景完全缺席
核心矛盾：模型开发者需要知道"在哪个长度、哪种任务上"表现好/差，但现有基准不支持细粒度分析。
本文要解决什么？ 构建覆盖多任务、多图像类型、多长度级别的统一评估基准。
切入角度：统一的跨模态 token 计量方案（vision patches + text tokens）+ 5 级标准化长度 + 5 类下游任务。
核心idea一句话：用统一的长度控制和多元任务覆盖，为 LCVLM 评估提供缺失的基础设施。

方法详解¶

整体框架¶

MMLongBench 包含 5 类任务 × 5 级长度 × 混合图像类型： - Visual RAG：从长上下文 Wikipedia 段落中检索信息回答视觉问题 - NIAH：在"干草堆"图片序列中找到插入的"针" - Many-Shot ICL：基于数百个上下文示例进行图像分类 - Summarization：对 PDF 文档进行摘要 - DocVQA：对长文档进行视觉问答

关键设计¶

跨模态 Token 计量（Cross-Modal Tokenization）:
做什么：统一 vision patches 和 text tokens 的计量方式
核心思路：图像 token 数 = 视觉编码器的 patch 数（经过 2×2 pixel unshuffle 后），与文本 token 一起构成总长度
设计动机：与 Qwen2.5-VL、InternVL3 等最新模型的实现一致，确保长度指标在不同模型间可比
5 级标准化长度（8K/16K/32K/64K/128K）:
做什么：每个样本都配备 5 种不同长度的上下文版本
核心思路：通过填充/截断上下文材料来精确控制总 token 数
设计动机：允许系统分析性能随长度变化的趋势，类似文本领域的长上下文评估实践
多元图像类型覆盖:
做什么：同时包含自然图像（照片、场景）和合成图像（文档截图、网页、应用截图）
核心思路：不同任务自然引入不同图像类型——NIAH/ICL 用自然图像，DocVQA/Summarization 用合成图像，VRAG 两者兼有
设计动机：避免因图像类型偏差导致的评估盲区
全面模型评估（46 个模型）:
做什么：评估闭源（GPT-4o、Gemini 等）和开源（LLaVA、Qwen-VL、InternVL 等）模型
核心思路：统一评估协议，控制变量进行公平对比
设计动机：提供当前 LCVLM 能力的全景视图

实验关键数据¶

主要发现¶

发现	详情
单任务 → 整体	弱代理关系：在 NIAH 上表现好不代表在 VRAG 或 ICL 上也好
闭源 vs 开源	闭源模型整体领先，但两类都在 128K 时大幅衰退
推理 vs 长上下文	正相关：Gemini thinking 版本明显优于标准版本
OCR 瓶颈	OCR 能力和跨模态检索能力是当前 LCVLM 的主要瓶颈
长度敏感性	多数模型从 32K 开始性能显著下降

任务级别结果（选取代表性模型）¶

模型	VRAG	NIAH	ICL	Summ	DocVQA	整体
GPT-4o	高	高	中	中	高	最高档
Gemini-2.5-Flash	中	高	高	高	中	高档
Qwen2.5-VL-72B	中	中	中	中	中	中档
InternVL3-8B	低	中	低	低	低	低档

长度敏感性¶

长度	平均性能（归一化）
8K	1.00（基线）
16K	~0.95
32K	~0.85
64K	~0.70
128K	~0.55

关键数字¶

13,331 个评估样本
5 类下游任务
46 个评估模型
5 级标准化长度（8K-128K）
混合图像类型（自然+合成）

亮点与洞察¶

"单任务是整体的弱代理"：这一发现警示了仅用 NIAH 评估长上下文能力的不充分性，推动了多任务评估的必要性
推理实力 ≈ 长上下文实力：Gemini thinking 版本的优势说明显式推理能力有助于处理长上下文——这对 LCVLM 的设计有启示意义
统一长度控制：首次在视觉语言领域实现与文本领域同等严格的长度控制标准
可扩展性：所有数据集都设计为可轻松扩展到更长上下文（256K+）

局限性 / 可改进方向¶

任务难度未细分：同一任务内未区分简单/困难子集
仅英文评估：缺少多语言长上下文评估
视频未纳入：长视频理解是另一个重要的长上下文场景，但未包含
人类基线缺失：缺少人类在相同任务上的表现作为上界参考

评分¶

新颖性: ⭐⭐⭐⭐ 首个全面的 LCVLM 多任务长上下文评估基准
实验充分度: ⭐⭐⭐⭐⭐ 46 个模型 + 5 任务 + 5 长度 + 详细错误分析
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，与现有基准的对比表格很有说服力
价值: ⭐⭐⭐⭐⭐ 填补了 LCVLM 评估的重要空白，将成为标准基准