MLVU: Benchmarking Multi-task Long Video Understanding¶

会议: CVPR 2025
arXiv: 2406.04264
代码: https://github.com/JUNJIE99/MLVU (有)
领域: 视频理解
关键词: 长视频理解, 视频基准测试, 多模态大模型, 多任务评估, 视频问答

一句话总结¶

提出 MLVU 基准，通过9种多样化评测任务、多种视频类型和灵活的时长设置，系统评估多模态大模型在长视频理解上的能力，揭示现有模型在处理长视频时的显著不足。

研究背景与动机¶

领域现状¶

领域现状：现有视频理解基准存在三大问题：(1) 视频长度不足，大部分基准的视频仅几秒到几十秒，无法反映真正的长视频理解能力；(2) 视频类型和评测任务缺乏多样性，通常聚焦于单一类型（如第一人称视频）或单一任务（如字幕生成）；(3) 评测设计不当——很多问题可以不看视频直接回答，例如基于知名电影常识或仅关注单帧信息。

MLVU 的核心目标是构建一个 长度充分、类型丰富、任务多样 的长视频理解评测基准，确保评测任务必须基于对长视频的深入理解才能完成。

解决思路¶

本文目标：### 整体框架

MLVU 是一个包含 3,102 个问题、9 类任务的多任务长视频理解基准，基于 1,730 个视频构建。

方法详解¶

整体框架¶

MLVU 是一个包含 3,102 个问题、9 类任务的多任务长视频理解基准，基于 1,730 个视频构建。视频长度从 3 分钟到 2 小时不等，平均约 15 分钟。视频被进一步分割为递增片段（如前3分钟、前6分钟、全长），使得不同时长下的评估成为可能。

关键设计¶

三层次评测任务体系: 将长视频理解分为三个层次——(a) 整体理解 (Holistic LVU)：包括主题推理 (TR)、异常识别 (AR)、视频摘要 (VS)，需利用全局信息；(b) 单细节理解 (Single-Detail LVU)：包括 Needle QA (NQA)、自我推理 (ER)、剧情问答 (PQA)、子场景字幕 (SSC)，需定位并理解特定片段；(c) 多细节理解 (Multi-Detail LVU)：包括动作排序 (AO)、动作计数 (AC)，需联合利用多处信息。
Needle QA 创新设计: 借鉴文本领域的 Needle-In-the-Haystack-Search，将短视频（needle）随机插入长背景视频中，模型需根据问题推断 needle 位置并回答问题。这有效测试了模型在长视频中定位和利用局部信息的能力。
MLVU Time-ladder 衍生数据集: 为同一类任务在不同时长（180s、360s、600s）下创建评测，系统研究视频长度对模型性能的影响，实现灵活的长度维度分析。

损失函数 / 训练策略¶

本文是基准测试论文，不涉及模型训练。评估策略包括：多选题用准确率衡量；生成任务（VS 和 SSC）使用 GPT-4 评分比对生成内容与人工标注。所有模型以零样本方式评测。

实验关键数据¶

主实验¶

模型	M-Avg (多选)	G-Avg (生成)	TR	NQA	AO	AC
GPT-4o	54.5%	5.87%	83.7%	42.9%	46.2%	35.0%
LLaVA-OneVision	51.7%	4.42%	83.5%	46.7%	35.7%	23.3%
Video-XL	46.3%	4.21%	78.0%	50.0%	48.6%	31.7%
VideoLLaMA2	48.4%	3.95%	80.2%	36.7%	42.9%	16.7%
InternVL-2	47.5%	3.90%	85.7%	48.3%	32.9%	15.0%
随机基线	16.7%	-	16.7%	16.7%	16.7%	16.7%

消融实验¶

配置	关键指标	说明
上下文长度: GPT-4o 16帧→256帧	M-Avg: 45.8→54.5 (+8.7)	更长输入显著提升LVU性能
上下文长度: MGV 16帧→90帧	M-Avg: 24.2→31.7 (+7.5)	开源模型同样获益
LLM骨干: Vicuna-7B→13B	M-Avg: 13.3→18.8 (+5.5)	更大骨干网络有帮助
LLM骨干: LLaMA-7B→Mistral-7B	M-Avg: 20.6→31.7 (+11.1)	更强骨干网络提升显著
图像理解 (MMMU): GPT-4V→4o	58.1→63.8 (MMMU) / 43.3→45.8 (M-Avg)	图像理解能力与LVU高度相关

关键发现¶

长视频理解对现有MLLM仍是巨大挑战：GPT-4o 的 M-Avg 仅 54.5%，多数模型在 NQA、AO、AC 等任务上接近随机水平
随视频长度增加，所有模型性能持续下降：短视频模型在10分钟视频上接近随机表现
多细节任务（AO、AC）比单细节任务困难很多，probe 数量增加时性能急剧下降
先进长视频模型（LongVA、Video-XL）对引用片段在视频中的位置不敏感，表现更稳定
上下文长度、图像理解能力、LLM骨干是影响LVU性能的三个关键因素

亮点与洞察¶

评测任务设计精巧：Needle QA 巧妙借鉴了文本领域经验，能有效测试长视频中的信息检索能力
Time-ladder 设计使得视频长度对性能的影响可被量化分析，这在以往基准中罕见
涵盖了电影、监控、第一人称、卡通、游戏等多种视频类型，贴近真实应用场景
开放式和多选题双轨评测，全面考察模型的不同能力维度

局限与展望¶

生成任务（VS、SSC）依赖 GPT-4 评分，可能引入评估偏差
视频来源的多样性仍有拓展空间（如医学、教育等专业领域视频较少）
仅评估了帧采样方式输入，未探索连续视频流处理
缺乏对音频信息的考量，而音频在很多视频理解任务中至关重要

评分¶

新颖性: ⭐⭐⭐⭐ 三层次任务体系和 Needle QA 设计有创新，但基准类工作新颖性有限
实验充分度: ⭐⭐⭐⭐⭐ 23个模型的全面评测，多维度消融分析非常充分
写作质量: ⭐⭐⭐⭐ 结构清晰，分析有深度
价值: ⭐⭐⭐⭐⭐ 填补了长视频理解系统性评测的空白，对社区有重要参考价值