MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly¶
会议: NeurIPS 2025 arXiv: 2505.10610 代码: GitHub 领域: 多模态VLM / 长上下文评估 关键词: long-context VLM, benchmark, multi-task evaluation, cross-modal tokenization, NIAH
一句话总结¶
构建首个全面的长上下文视觉语言模型(LCVLM)评估基准 MMLongBench——13,331 个样本覆盖 5 类下游任务、混合图像类型、5 级标准化输入长度(8K-128K tokens),评估 46 个模型后发现单任务性能是整体能力的弱代理,且强推理能力与长上下文性能正相关。
研究背景与动机¶
- 领域现状:VLM 的上下文窗口已扩展到 128K+ tokens(如 GPT-4o、Gemini-2.5),催生了能处理数百张图片和数千交错文本 token 的长上下文 VLM(LCVLM)。但评估基准严重滞后。
- 现有痛点:
- 任务覆盖有限:现有基准只关注单一类型(如 MM-NIAH 只做针状搜索,MMLongBench-Doc 只做文档 VQA),但单一任务无法反映整体长上下文能力
- 图像类型单一:多数只包含自然图片或合成文档截图,不够全面
- 输入长度不统一:不同基准对"长度"的定义不一致——有的按图片数,有的按 token 数;且多数只提供单一长度
- 缺少重要任务:Visual RAG、many-shot ICL、摘要等实际应用场景完全缺席
- 核心矛盾:模型开发者需要知道"在哪个长度、哪种任务上"表现好/差,但现有基准不支持细粒度分析。
- 本文要解决什么? 构建覆盖多任务、多图像类型、多长度级别的统一评估基准。
- 切入角度:统一的跨模态 token 计量方案(vision patches + text tokens)+ 5 级标准化长度 + 5 类下游任务。
- 核心idea一句话:用统一的长度控制和多元任务覆盖,为 LCVLM 评估提供缺失的基础设施。
方法详解¶
整体框架¶
MMLongBench 包含 5 类任务 × 5 级长度 × 混合图像类型: - Visual RAG:从长上下文 Wikipedia 段落中检索信息回答视觉问题 - NIAH:在"干草堆"图片序列中找到插入的"针" - Many-Shot ICL:基于数百个上下文示例进行图像分类 - Summarization:对 PDF 文档进行摘要 - DocVQA:对长文档进行视觉问答
关键设计¶
- 跨模态 Token 计量(Cross-Modal Tokenization):
- 做什么:统一 vision patches 和 text tokens 的计量方式
- 核心思路:图像 token 数 = 视觉编码器的 patch 数(经过 2×2 pixel unshuffle 后),与文本 token 一起构成总长度
-
设计动机:与 Qwen2.5-VL、InternVL3 等最新模型的实现一致,确保长度指标在不同模型间可比
-
5 级标准化长度(8K/16K/32K/64K/128K):
- 做什么:每个样本都配备 5 种不同长度的上下文版本
- 核心思路:通过填充/截断上下文材料来精确控制总 token 数
-
设计动机:允许系统分析性能随长度变化的趋势,类似文本领域的长上下文评估实践
-
多元图像类型覆盖:
- 做什么:同时包含自然图像(照片、场景)和合成图像(文档截图、网页、应用截图)
- 核心思路:不同任务自然引入不同图像类型——NIAH/ICL 用自然图像,DocVQA/Summarization 用合成图像,VRAG 两者兼有
-
设计动机:避免因图像类型偏差导致的评估盲区
-
全面模型评估(46 个模型):
- 做什么:评估闭源(GPT-4o、Gemini 等)和开源(LLaVA、Qwen-VL、InternVL 等)模型
- 核心思路:统一评估协议,控制变量进行公平对比
- 设计动机:提供当前 LCVLM 能力的全景视图
实验关键数据¶
主要发现¶
| 发现 | 详情 |
|---|---|
| 单任务 → 整体 | 弱代理关系:在 NIAH 上表现好不代表在 VRAG 或 ICL 上也好 |
| 闭源 vs 开源 | 闭源模型整体领先,但两类都在 128K 时大幅衰退 |
| 推理 vs 长上下文 | 正相关:Gemini thinking 版本明显优于标准版本 |
| OCR 瓶颈 | OCR 能力和跨模态检索能力是当前 LCVLM 的主要瓶颈 |
| 长度敏感性 | 多数模型从 32K 开始性能显著下降 |
任务级别结果(选取代表性模型)¶
| 模型 | VRAG | NIAH | ICL | Summ | DocVQA | 整体 |
|---|---|---|---|---|---|---|
| GPT-4o | 高 | 高 | 中 | 中 | 高 | 最高档 |
| Gemini-2.5-Flash | 中 | 高 | 高 | 高 | 中 | 高档 |
| Qwen2.5-VL-72B | 中 | 中 | 中 | 中 | 中 | 中档 |
| InternVL3-8B | 低 | 中 | 低 | 低 | 低 | 低档 |
长度敏感性¶
| 长度 | 平均性能(归一化) |
|---|---|
| 8K | 1.00(基线) |
| 16K | ~0.95 |
| 32K | ~0.85 |
| 64K | ~0.70 |
| 128K | ~0.55 |
关键数字¶
- 13,331 个评估样本
- 5 类下游任务
- 46 个评估模型
- 5 级标准化长度(8K-128K)
- 混合图像类型(自然+合成)
亮点与洞察¶
- "单任务是整体的弱代理":这一发现警示了仅用 NIAH 评估长上下文能力的不充分性,推动了多任务评估的必要性
- 推理实力 ≈ 长上下文实力:Gemini thinking 版本的优势说明显式推理能力有助于处理长上下文——这对 LCVLM 的设计有启示意义
- 统一长度控制:首次在视觉语言领域实现与文本领域同等严格的长度控制标准
- 可扩展性:所有数据集都设计为可轻松扩展到更长上下文(256K+)
局限性 / 可改进方向¶
- 任务难度未细分:同一任务内未区分简单/困难子集
- 仅英文评估:缺少多语言长上下文评估
- 视频未纳入:长视频理解是另一个重要的长上下文场景,但未包含
- 人类基线缺失:缺少人类在相同任务上的表现作为上界参考
相关工作与启发¶
- vs MM-NIAH: 只覆盖 NIAH 一种任务;MMLongBench 覆盖 5 种
- vs MMLongBench-Doc: 只做文档 VQA 且无长度控制;本文全面覆盖 + 严格长度控制
- vs MileBench: 声称全面但实际平均长度仅约 9K tokens,不是真正的长上下文基准
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个全面的 LCVLM 多任务长上下文评估基准
- 实验充分度: ⭐⭐⭐⭐⭐ 46 个模型 + 5 任务 + 5 长度 + 详细错误分析
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,与现有基准的对比表格很有说服力
- 价值: ⭐⭐⭐⭐⭐ 填补了 LCVLM 评估的重要空白,将成为标准基准