VRR-QA: Visual Relational Reasoning in Videos Beyond Explicit Cues¶
会议: CVPR 2026
arXiv: 2506.21742
代码: 有(数据集和数据收集框架已开源)
领域: 视频理解
关键词: 视频问答, 隐式推理, 视觉关系推理, 基准测试, 多模态理解
一句话总结¶
本文提出 VRR-QA 基准,包含 1K 精心标注的视频问答对,专门测试模型对视频中隐式视觉关系的推理能力(如屏幕外事件、跨帧因果、空间关系推断),揭示当前最强 VideoQA 模型(包括 GPT-O3)在隐式推理上的显著不足——最优模型仅达 64% 准确率,远低于人类的 83%。
研究背景与动机¶
-
领域现状:视频问答(VideoQA)近年取得显著进展,通过多模态学习对齐视觉和文本模态。现有基准(如 MVBench、TempCompass、VideoMME)主要针对"显式可见"的问题——识别动作、物体、事件等直接可观察的视觉内容。
-
现有痛点:人类理解视频时不仅看"画面上出现了什么",还会推断画面中暗示但未直接呈现的关系——例如从角色的跑动方向推断子弹的运动轨迹,即使子弹和目标人物从未同框出现。然而现有基准几乎不涵盖这类"隐式推理"任务。
-
核心矛盾:现有模型严重依赖表面级视觉线索,在需要跨帧推断未显式展示的空间关系、因果链条、社交动态时表现极差。但缺少一个系统化的基准来量化评估这一能力缺口。
-
本文目标 构建第一个专注于"隐式视觉关系推理"的 VideoQA 基准,系统评估现有模型在此任务上的能力,并定义 9 类推理维度的分类体系。
-
切入角度:选择电影和动画作品作为视频来源——这类创意视频天然采用叙事技巧(如暗示因果、屏幕外动作、视角切换),使"隐式推理"内含在内容理解中,同时避免显式线索泄漏。
-
核心 idea:通过电影片段中需要推断而非直接观察的问题,构建一个真正测试视频隐式推理能力的基准。
方法详解¶
整体框架¶
VRR-QA 的构建流程包括四个阶段:(1) 从多样化电影中选取 1K 创意视频片段;(2) 专家标注员使用自研 FrameQuiz 标注工具标注时间段、问题和答案选项;(3) 非专家标注员通过 ImplicitEval 工具回答问题,建立人类基线;(4) GPT-4.1 初步分类后由专家重新标注推理类别。最终产出 1K QA 对,覆盖 107 部电影、15 种体裁、横跨 7 个十年。
关键设计¶
-
9 类隐式推理分类体系:
- 功能:提供系统化的隐式视觉推理能力分类
- 核心思路:涵盖横向空间推理(推断物体相对左右位置)、纵向空间推理(上下位置关系)、相对深度与距离、视角与可见性(推断谁能看到什么)、运动与轨迹动态、因果与动机推理、隐式计数(需要跨帧聚合散布的视觉证据来计数)、物理与环境上下文、社交互动与关系
- 设计动机:确保基准全面覆盖人类视频理解中的各种隐式推理维度,使分析结果可以精确定位模型的薄弱环节
-
专家全流程标注:
- 功能:确保标注质量和问题的隐式性
- 核心思路:与其他基准使用模板生成或 LLM 辅助标注不同,VRR-QA 的所有 1K 问题全部由论文作者(CV 专家)亲自编写,并进行交叉验证。标注工具支持逐帧检查、时间段标注、保存回放验证等功能
- 设计动机:由 CV 专家标注可以确保每个问题真正探测隐式推理能力而非表面感知,模板和 LLM 生成容易产生可通过显式线索回答的问题
-
"无视觉泄漏"的电影视频来源:
- 功能:防止模型通过直接观察画面内容回答问题
- 核心思路:选择故意省略直接描绘的电影片段,例如子弹飞向公主但从未与马里奥同框——必须通过推理公主的跑动方向和子弹方向来推断子弹相对马里奥的位移方向。1K 个片段来自 107 部电影(15 种体裁:3D 动画、真人电影等)
- 设计动机:电影的叙事技巧使隐式推理成为理解的必要条件,而非可选增强
评估设计¶
评估涵盖 30+ 种 VideoQA 模型配置,包括开源(LLaVA 系列、Qwen2-VL、InternVL3、Gemma 3 等)和闭源模型(GPT-O3、GPT-5.2、Gemini 3 Flash、Claude 4.5 Sonnet 等),测试不同参数规模和输入帧数的影响。
实验关键数据¶
主实验¶
| 模型 | 总体准确率 | 宏平均 | 横向空间 | 运动轨迹 | 推理动机 | 隐式计数 |
|---|---|---|---|---|---|---|
| 人类基线 | 83.0% | 85.6% | 85.4% | 91.9% | 94.4% | 65.9% |
| GPT-O3 | 64.1% | 68.6% | 50.3% | 71.4% | 85.4% | 39.5% |
| Gemini 3 Flash | 61.8% | 67.6% | 52.8% | 73.6% | 86.6% | 48.3% |
| GPT-4.1 | 54.3% | 58.6% | 42.9% | 59.3% | 82.9% | 41.9% |
| InternVL 3 (7B) | 43.3% | 50.2% | 34.8% | 51.7% | 64.6% | 34.9% |
| LLaVA-Video (7B) | 42.1% | 46.3% | 36.0% | 60.4% | 62.2% | 14.0% |
关键分析¶
| 分析维度 | 发现 |
|---|---|
| 推理 vs 非推理模型 | 推理模型 GPT-O3 比 GPT-4.1 高 9.8%,说明深层推理对隐式理解至关重要 |
| 模型规模效应 | GPT-4.1 的大规模版本显著优于小规模变体;开源模型中 Qwen2.5-VL-32B 仅小幅优于 7B |
| 帧数影响 | 更多帧未必带来改善,说明问题在于推理能力而非视觉信息不足 |
| 最难类别 | 隐式计数和横向空间推理是模型最弱的环节,与人类差距最大 |
| 文本多样性 | VRR-QA 的问题 MPS(均值余弦相似度)为 0.161,低于所有对比基准,多样性最高 |
关键发现¶
- 没有任何开源模型在 VRR-QA 上超过 50% 的总体准确率
- 推理型模型(GPT-O3)在所有类别上表现最好,但在横向空间推理和隐式计数上仍远不如人类
- 即使最强闭源模型也比人类基线低约 19 个百分点
- 各模型在不同类别上表现差异显著——社交互动和动机推理相对容易(GPT-O3 达 85-86%),而隐式计数极难(GPT-O3 仅 39.5%)
亮点与洞察¶
- 填补关键空白的基准设计:VRR-QA 是首个专注于隐式推理的 VideoQA 基准,其设计理念(选择电影内容、专家标注、隐式问题构建)值得其他基准构建工作借鉴
- 分类体系的细粒度:9 类推理维度的定义为后续研究提供了清晰的能力图谱,可以精确诊断模型在哪类推理上最弱
- 推理型模型的优势验证:实验清楚证明"思考"能力(如 O3 的推理能力)对隐式理解的关键作用,这为未来 VideoQA 模型的架构设计指明方向
局限与展望¶
- 数据规模较小(仅 1K QA 对),可能不足以支撑大规模训练或精细的统计分析
- 仅选择电影视频,未涵盖教学视频、监控视频等实际应用场景中的隐式推理
- 多选题格式可能无法完全反映模型的开放式推理能力
- 未提供训练集或微调方案,仅作为评测基准使用
- 可扩展方向:构建更大规模的隐式推理训练数据,或设计基于隐式推理的预训练策略
相关工作与启发¶
- vs MVBench: MVBench 聚合已有数据集的显式问题,VRR-QA 专注原创的隐式推理问题
- vs VideoMME: VideoMME 测试多模态(含字幕/音频),VRR-QA 纯视觉、专注隐式推理
- vs TempCompass: TempCompass 通过算法编辑测试时序理解,VRR-QA 使用自然电影内容测试深层推理
评分¶
- 新颖性: ⭐⭐⭐⭐ 填补了 VideoQA 领域隐式推理评测的空白,分类体系设计合理
- 实验充分度: ⭐⭐⭐⭐⭐ 30+ 模型配置的全面评估,多维度分析透彻
- 写作质量: ⭐⭐⭐⭐ 结构清晰,示例生动,动机阐述有说服力
- 价值: ⭐⭐⭐⭐ 揭示了当前 VideoQA 模型的根本缺陷,为社区指明改进方向
相关论文¶
- [CVPR 2026] StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos
- [ICCV 2025] Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos
- [CVPR 2026] MINERVA-Cultural: A Benchmark for Cultural and Multilingual Long Video Reasoning
- [CVPR 2026] VSI: Visual-Subtitle Integration for Keyframe Selection to Enhance Long Video Understanding
- [CVPR 2026] Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding