RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video¶

会议: NeurIPS 2025
arXiv: 2505.02064
代码: https://ljungang.github.io/RTV-Bench
领域: 视频理解
关键词: 实时视频理解, 多模态大模型评测, 连续分析, 多时间戳问答, 视频基准

一句话总结¶

提出 RTV-Bench，一个面向多模态大模型（MLLM）实时视频连续分析能力的细粒度评测基准，包含552个视频和4608个QA对，通过多时间戳问答、层次化问题结构和多维度评估来全面测试模型在动态视频流中的感知、理解和推理能力。

领域现状：多模态大模型在感知、理解和推理方面取得快速进展，但现有基准主要评估静态或离线视频理解能力，难以衡量模型在连续动态视频流中的表现。

现有痛点：VStream、StreamingBench、OVOBench 等基准虽然在视频长度和评测类型上做了改进，但对实时响应能力的评估不够充分——它们忽略了模型捕捉视觉输入中转换和瞬间细节的能力。

核心矛盾：现实世界的视频是连续变化的，同一个问题在不同时间点可能有不同的正确答案，而现有基准通常只在单一时间点提出问题，无法测试模型对动态状态变化的敏感度。

本文目标：设计一个能够全面评测 MLLM 在实时视频场景中连续分析能力的基准，涵盖感知、理解和推理三个层次。

切入角度：通过三个核心创新——多时间戳QA机制、层次化问题结构和多维度评估——来构建更严格的实时视频理解评测。

核心 idea：同一个概念性问题在视频不同时间点重复提问，正确答案随场景演变而改变，从而直接测试模型的连续时间追踪和状态更新能力。

RTV-Bench 由552个多样化视频（总时长167.2小时，平均18.2分钟/视频）和4608个精心标注的QA对组成。视频主要来自智能驾驶、体育赛事和第一人称视频三大领域，涵盖16个子类别。

多时间戳QA机制（MTQA）:
- 功能：评估模型对视频动态变化的实时追踪能力
- 核心思路：对同一概念性问题在视频不同时间点重复提问。例如"守门员在做什么？"，随着比赛进展，正确答案会从"扑球"变为"站立"再变为"开球"。标注者为每个答案选项确定最早有效时间戳
- 设计动机：不同于 OVOBench 在不同时间戳提出不同问题，MTQA 在不同时间复用同一问题，更严格地测试模型的连续分析能力
层次化问题结构:
- 功能：确保模型具备可靠的顺序推理能力
- 核心思路：每组问题包含约3个选择题，前两个是基础感知/理解题，第三个是需要综合上下文的高级推理题。高级问题逻辑上依赖于对基础问题的正确回答
- 设计动机：防止模型通过认知捷径得到正确答案，确保高级推理建立在扎实的基础理解之上
多维度评估体系:
- 功能：提供细粒度的模型能力诊断
- 核心思路：将评估分为8个维度——时间感知(TP)、场景感知(SP)、视觉感知(VP)、未来预测(FP)、现象理解(PU)、意图分析(IA)、全局理解(GU)和时空推理(SR)。引入条件Score指标：仅当基础问题全部正确时才计高级问题得分
- 设计动机：超越单一聚合分数，对模型能力和局限提供更有信息量的视角

这是一个评测基准，不涉及训练。标注流程采用 DeepSeek 生成初始问题模板，再由人工标注者精心修改以反映动态场景需求，确保高质量标注。

模型	类型	Overall Acc(%)	Score	MTQA Acc(%)
GPT-4o	闭源	50.02	22.10	44.73
IXC2.5-OL	在线7B	47.33	15.40	38.21
VITA-1.5	在线7B	44.51	11.80	36.32
Qwen2.5-VL	离线7B	40.41	7.13	37.46
VideoLLaMA2	离线7B	39.55	7.90	34.95