CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models¶

会议: AAAI 2026
arXiv: 2511.12263
代码: https://github.com/chuntianli666/CrossVid
领域: 视频理解 / 多模态VLM
关键词: 跨视频推理, 视频问答基准, 多视频理解, 多模态大语言模型评估, 时空推理

一句话总结¶

提出首个系统评估多模态大语言模型（MLLM）跨视频推理（Cross-Video Reasoning, CVR）能力的综合基准CrossVid，涵盖4个维度10个任务、5,331个视频和9,015个QA对，实验揭示当前最佳模型Gemini-2.5-Pro仅达50.4%准确率，远低于人类89.2%。

背景与动机¶

现有视频理解基准（Video-MME、NExT-QA、ActivityNet-QA等）几乎都聚焦于单视频分析，无法评估模型同时推理多个视频的能力
最近的多视角基准如All-Angles Bench仅限于同一场景的多视角视频，任务类型和场景覆盖极为有限（仅90个场景、6个任务、2,132 QA对）
现实场景中大量需求涉及跨视频的对比、聚合、推理（如对比多个烹饪视频的操作差异、跨视角追踪同一场景中的目标），现有基准对此完全空白
开源MLLM几乎没有针对CVR任务进行训练，跨视频推理能力是黑箱

核心问题¶

如何全面、系统、可靠地评估MLLM在跨视频推理场景下的能力？现有MLLM在需要整合、对比多个视频信息进行推理时的真实能力边界在哪里？

方法详解¶

整体框架¶

CrossVid是一个评估基准而非训练方法，核心设计包括：

层次化任务体系：4个高层维度 → 10个具体任务
对比分析（Comparative Analysis）：行为理解(BU)、叙事理解(NC)、烹饪对比(CC)、程序错误分析(PEA)
时序理解（Temporal Understanding）：情节推断(PI)、功能步骤对齐(FSA)、程序步骤排序(PSS)
多视角推理（Multi-view Reasoning）：多视角空间推理(MSR)、多视角目标计数(MOC)
自由问答（Free-form QA）：烹饪对比开放问答(CCQA)
数据规模：5,331个视频来自6个公开数据集（Animal Kingdom、MovieChat-1K、YouCook2、VisDrone、Charades、Assembly101），9,015个QA对，覆盖32种题材，每个查询平均需理解约770秒视频内容
问题格式：单选题(SC)、多选题(MC)、封闭式生成(CG)、开放式生成(OG)

关键设计¶

半自动标注流程（四阶段）： 1. 帧描述：从视频中密集抽帧，使用Qwen2.5-VL-72B生成帧级描述，结合原始数据集元数据（情节摘要、场景描述、动作标签） 2. QA生成：将视频按原始数据集标签聚类，确保同一组内语义相关；使用DeepSeek-R1基于帧描述+任务特化prompt自动生成QA对，要求模型分析跨视频关系并提供推理解释 3. 数据筛选与精炼：10名专家标注员三步筛选——过滤非视频理解题→去除仅涉及单视频的题→排除主观/过于复杂的题；精炼阶段标注员独立重答以验证答案唯一性 4. 质量控制：独立专家组最终审核

反捷径设计：PSS任务中通过时间重对齐（每个前序片段提前1-5秒，后续片段相应延迟）消除相机角度连续性带来的视觉捷径，迫使模型依赖语义内容而非低级特征

多视角任务的全手工标注：MSR和MOC任务因涉及精细空间关系，不使用自动生成，完全由人工基于VisDrone数据集的逐帧边界框标注完成

损失函数 / 训练策略¶

不适用（本文是评估基准，非训练方法）。

评估指标设计： - 单选题：精确匹配准确率 - 多选题：必须完全匹配所有正确选项才算正确 - FSA任务：IoU衡量（\(\text{IoU} = \frac{\max(0, \min(A_{end}, G_{end}) - \max(A_{start}, G_{start}))}{\max(A_{end}, G_{end}) - \min(A_{start}, G_{start})}\)） - PSS任务：序列位置完全匹配 - CCQA开放题：GPT-4.1两阶段评分——先评判覆盖度（scoring point是否被提及），再评判准确性（细节是否匹配标准答案）

实验关键数据¶

22个MLLM的整体表现（O.Avg = 10个任务平均准确率）： | 模型 | O.Avg | C.Avg | T.Avg | M.Avg | CCQA | |------|-------|-------|-------|-------|------| | Human | 89.2 | 88.1 | 88.9 | 93.7 | 85.2 | | Gemini-2.5-Pro | 50.4 | 54.7 | 56.0 | 28.7 | 59.8 | | GPT-4.1 | 45.2 | 47.6 | 46.7 | 38.4 | 44.6 | | Doubao-1.5-VL-pro | 44.3 | 53.8 | 36.1 | 34.7 | 50.1 | | GPT-4o | 36.8 | 43.1 | 35.5 | 27.4 | 34.2 | | GLM-4.1V-9B-Thinking | 35.1 | 44.7 | 23.1 | 37.8 | 26.9 | | Qwen2.5-VL-72B | 34.4 | 42.1 | 29.2 | 23.5 | 41.2 | | Qwen2.5-VL-32B | 33.7 | 38.3 | 26.5 | 31.7 | 41.2 | | MiMo-7B | 28.3 | 31.2 | 23.0 | 33.6 | 22.0 | | InternVL3-8B | 25.6 | 26.1 | 20.3 | 40.7 | 9.7 |

极端困难的任务： - FSA（功能步骤对齐）：最佳Gemini-2.5-Pro仅13.4%，人类85.2%——差距高达71.8个百分点 - PSS（程序步骤排序）：Gemini-2.5-Pro 78.2%相对较好，但多数开源模型<15% - 多视角推理：最佳开源模型InternVL3-8B仅40.7%，人类93.7%

消融实验要点¶

帧数影响（Qwen2.5-VL-72B）： - 32帧→256帧：O.Avg从33.8%→39.5%（+5.7%），CCQA从18.9%→34.0%（+15.1%） - 但并非越多越好：过多帧可能引入噪声，如情节推断任务中过多无关镜头会干扰因果链推理

CoT提示效果： - 大模型从CoT中获益更多：Qwen2.5-VL-72B +5.1%（34.4→39.5），InternVL3-38B +0.9% - 小模型可能反而下降：MiniCPM-o 2.6 -1.9%（25.6→23.7） - CoT对时序理解和多视角推理提升最为明显

错误类型分析（4类）： 1. 关键帧丢失：多视频同时输入导致每个视频帧数减少，核心信息缺失 2. 单视频理解错误：虽捕获关键帧但对个别视频的理解不够充分 3. 跨视频对比错误：正确理解各视频但在聚合对比推理时失败（最核心问题） 4. 格式错误：无法按指定格式输出（如时间区间格式）

亮点¶

填补关键空白：首个系统性CVR基准，将视频理解从"单视频单问题"推向"多视频单问题"范式
任务设计层次丰富：4维度10任务覆盖对比、时序、空间、开放四大推理类型，32种题材，远超此前最多6任务的All-Angles Bench
反捷径机制：PSS任务的时间重对齐设计巧妙防止模型利用视觉连续性走捷径
标注质量把控严格：半自动流程+10名专家+多阶段筛选精炼+独立质量控制
实验覆盖全面：22个模型（闭源+开源，7B~78B+MoE），附带详细的帧数/CoT消融和四类错误分析
揭示核心瓶颈：明确指出当前MLLM的主要弱点在于"跨视频证据聚合与对比"而非单视频理解

局限性 / 可改进方向¶

仅评估不提供解决方案：作为基准论文，没有提出任何改进CVR能力的训练方法、架构或数据增强策略
视频来源受限：6个公开数据集大多集中在烹饪(YouCook2)、电影(MovieChat-1K)、无人机(VisDrone)等特定领域，缺少医疗、教育、工业等更多实际应用场景
开放题评估依赖GPT-4.1：CCQA的评分完全依赖GPT-4.1的judge能力，引入了评估器本身的偏差
帧采样策略单一：所有实验均使用均匀采样，未探索关键帧选择等更智能的采样策略
缺乏跨视频训练数据构建指导：指出了问题但未探索如何构建跨视频训练数据来提升MLLM的CVR能力
多视角任务仅限无人机场景：MSR和MOC全部来自VisDrone，场景多样性不足
每查询帧数分配不灵活：所有视频均匀分配帧数，但不同视频的信息密度可能差异很大

与相关工作的对比¶

维度	CrossVid	All-Angles Bench	Video-MME	NExT-QA
视频数	5,331	90场景	900	5,440
QA对数	9,015	2,132	2,700	52,044
任务数	10	6	12	2
多视频	✓	✓	✗	✗
开放题	✓	✗	✗	✓
跨视频推理	✓	仅多视角	✗	✗

CrossVid的核心差异在于：不仅覆盖多视角（同一场景不同视角），还扩展到不同场景/不同视频之间的对比、时序、推理任务。

启发与关联¶

跨视频训练数据构建是重要的研究方向——当前MLLM在CVR上表现差主要因为缺少针对性训练
关键帧选择在多视频场景下变得更为重要——帧预算在多个视频间分配后每个视频帧数大幅减少
显式"思考"机制（thinking-enabled models）对复杂跨视频推理有明确优势，值得在开源模型中推广
跨视频对比推理能力的提升可能需要在模型架构层面引入跨视频注意力或对比学习机制
该基准可作为评估视频Agent系统的有用测试平台——需要整合多个视频信息做决策的场景

评分 (⭐ 1-5 with reasons)¶

⭐⭐⭐⭐ (4/5)

优点： - 问题定义清晰且重要，CVR确实是一个被忽视但实际需求强烈的方向 - 基准构建严谨，反捷径设计和多阶段质量控制体现了高标准 - 实验覆盖全面，22个模型+多维度消融+错误分析提供了有价值的见解 - 揭示的"跨视频对比推理"瓶颈对后续研究有明确指导意义

不足： - 作为纯基准工作，没有提供任何解决方案（即使是简单的baseline改进也没有尝试） - 视频来源集中在少数领域，多视角任务仅限无人机场景 - CCQA开放题的评估方法（GPT-4.1 judge）缺乏可靠性验证