Vista: Scene-Aware Optimization for Streaming Video Question Answering Under Post-Hoc Queries¶
会议: AAAI 2026
arXiv: 2602.08448
代码: 无
领域: 视频理解 / 流式视频问答
关键词: 流式视频问答、场景感知压缩、多模态大模型、视频记忆检索、实时推理
一句话总结¶
Vista 提出了一种场景感知的流式视频问答框架,通过将流式视频动态分割为语义连贯的场景单元,对每个场景进行时空压缩并卸载到 CPU,在用户提问时选择性召回最相关的场景,实现了在低 GPU 内存占用和低延迟下的高精度视频问答。
研究背景与动机¶
领域现状:多模态大语言模型(MLLMs)在视频问答领域取得了显著进展,但大多数方法针对的是离线场景——即整段视频和问题同时可用,模型可以全局分析。在交互式实时应用中(如自动驾驶、视频对话系统),视频帧连续到达,用户可能在任意时刻提问,传统离线方案无法适用。
现有痛点:流式视频问答面临两个核心挑战。第一,视频流理论上无限长,固定帧率采样会迅速耗尽内存和计算资源;第二,用户要求低延迟响应,不允许在推理时做全序列注意力计算。现有流式方案如 Flash-VStream、VideoLLM-Online 等方法要么采用固定大小的记忆缓冲区导致上下文丢失,要么使用简单压缩策略导致信息损失,整体表现远不及离线模型。
核心矛盾:在"后验查询"(post-hoc queries)设定下,用户的问题在视频流开始后的任意时刻才到达,因此模型在编码帧的过程中无法根据问题的语义来选择关键帧。这使得模型必须在"不知道问题是什么"的前提下,既保留足够的视觉信息以应对未来的未知查询,又要控制内存使用和响应延迟。
本文目标 如何在流式视频的后验查询场景下,实现高效的视频编码、压缩存储和问题驱动的信息检索,使模型在严格的内存和延迟约束下依然保持高精度。
切入角度:作者观察到,在推理过程中模型的注意力通常集中在视频中少量语义显著的片段上,而这些片段在时间上往往属于同一个"场景"。因此可以以场景为基本单位进行视频压缩和检索,而非逐帧处理。
核心 idea:以场景为粒度对流式视频进行动态分割、紧凑压缩和按需召回,在不牺牲语义完整性的前提下实现高效实时视频问答。
方法详解¶
整体框架¶
Vista 的整体流程包含三个阶段:(1)场景感知分割:视频帧按时序到达后,系统基于帧间视觉相似度将连续帧自动划分为多个语义一致的场景单元;(2)场景感知压缩:每个完整场景通过时空压缩策略生成一个紧凑的场景 token,同时将原始高分辨率帧卸载到 CPU 内存;(3)场景感知召回:当用户提问时,系统计算问题与各场景 token 的相关性分数,召回 top-k 个最相关场景的完整帧,与当前滑动窗口的帧一起送入视觉语言模型生成答案。
关键设计¶
-
场景感知分割(Scene-aware Segmentation):
- 功能:将连续到达的视频帧在线划分为时间和语义上连贯的场景单元
- 核心思路:维护一个锚帧 \(F_a\) 代表当前场景的起始帧。对每个新到达的帧 \(F_i\),同时计算两个相似度:与锚帧的相似度 \(\mathcal{S}_{\text{anchor}}(F_i)\) 和与前一帧的相似度 \(\mathcal{S}_{\text{adj}}(F_i)\)。当两个相似度同时低于阈值 \(\tau\) 时,判定为场景边界。采用双条件判定而非单一条件,可以区分"渐变切换"和"突然切换"两种场景转换模式,避免误检。此外,相邻场景之间引入时间重叠(temporal overlap),共享少量帧,以缓解突兀的边界效应并保持时间连贯性。
- 设计动机:由于问题在编码阶段未知,无法用语义相关性来选择关键帧,因此采用无监督的视觉相似度方法在线检测场景转换,保证方法的通用性和查询无关性。
-
场景感知压缩(Scene-aware Compression):
- 功能:将每个完成的场景压缩为单个紧凑的场景 token,存储在 GPU 中用于后续检索;原始帧卸载到 CPU 内存
- 核心思路:提出时空压缩(Temporal-Spatial Compression)三步策略。时间压缩:对场景内所有帧沿时间轴逐 patch 做平均池化,利用场景内相邻帧的高度相关性去除时间冗余,得到时间压缩特征图 \(F_{\text{temp}}\)。空间压缩:将 \(F_{\text{temp}}\) 重塑为二维空间 token 网格,使用滑动窗口聚合,每个 patch 的 L2 范数作为重要性权重进行加权平均,突出显著区域。最终聚合:对空间加权后的 token 再做一次平均池化,生成最终的场景 token。整个过程不涉及任何可学习参数,纯基于池化和加权操作。
- 设计动机:场景内帧间冗余极高,直接存储所有帧会造成 GPU 内存爆炸。通过层级式时空压缩,既极大降低存储开销(每个场景仅需一个 token),又通过 L2 加权保留了空间中的关键判别性信息。
-
场景感知召回(Scene-aware Recall):
- 功能:在用户提问时,从已压缩的场景库中检索最相关的场景,恢复其完整帧用于回答
- 核心思路:将问题 \(Q\) 通过语言编码器嵌入为查询向量 \(\mathbf{q} = \psi(Q)\),与各场景 token \(T_i\) 计算点积注意力分数 \(\alpha_i = \mathbf{q} T_i^\top\),选取分数最高的 top-k 个场景。将这些场景对应的高分辨率帧从 CPU 内存取回,与当前滑动窗口内的帧和问题一起构成最终输入:\(\text{Input}_{\text{VLM}} = (\mathcal{V}_{\text{final}}, Q)\),其中 \(\mathcal{V}_{\text{final}} = (\bigcup_{j \in \mathcal{I}_k} \mathcal{F}_j) \cup \mathcal{L}\)。
- 设计动机:虽然压缩阶段必须查询无关,但在回答阶段可以利用问题信息做定向检索。通过只恢复少量最相关场景的完整帧,而非所有历史帧,既保证了回答质量又控制了 GPU 内存用量。
损失函数 / 训练策略¶
Vista 是一个无需训练(training-free)的框架,不涉及额外的损失函数或训练过程。它作为即插即用的模块可以与多种视觉语言模型集成(如 LLaVA-OneVision-7B、Video-LLaMA2-7B),直接在推理阶段发挥作用。所有推理实验使用贪心解码(temperature=0),保证生成的确定性。
实验关键数据¶
主实验¶
StreamingBench 基准上的关键结果:
| 模型 | RT | ER | SCU | SD | MA | ACU | MCU | SQA | Overall |
|---|---|---|---|---|---|---|---|---|---|
| Flash-VStream | 23.23 | 25.91 | 24.90 | 25.60 | 28.40 | 24.80 | 25.20 | 26.80 | - |
| Dispider | 67.63 | 35.46 | 25.26 | 38.57 | 43.34 | 39.62 | 27.65 | 34.80 | - |
| LLaVA-OV-7B | 70.92 | 40.00 | 24.80 | 31.20 | 44.40 | 32.40 | 35.60 | 30.80 | - |
| +Vista | 71.36 | 46.40 | 37.20 | 43.60 | 74.00 | 43.20 | 36.80 | 34.40 | - |
离线视频问答基准:
| 数据集 | 指标 | 本文(Vista) | 之前最优 | 提升 |
|---|---|---|---|---|
| MLVU | Accuracy | 63.8% | - | 显著优于 Dispider 等 |
| EgoSchema | Accuracy | 58.7% | - | 超越所有流式和多数离线模型 |
消融实验¶
| 配置 | ER Accuracy | 说明 |
|---|---|---|
| Base(均匀采样) | 40.00% | 无任何模块 |
| +Compression+Recall | 38.80% | 无分割的压缩反而有害 |
| +Segmentation+Recall | 42.00% | 语义分割提供结构先验 |
| +Segmentation+Compression | 44.00% | 场景内压缩有效保留信息 |
| 全部三模块 | 46.40% | 三者互补达到最优 |
关键发现¶
- 多模态对齐(MA)任务的提升最为惊人:Vista 达到 74.00%,比基线 LLaVA-OV-7B 的 44.40% 高出 29.6 个百分点,甚至超过 GPT-4o(56.00%)
- 在帧数持续增长的场景下,Vista 的 GPU 内存使用和推理延迟保持稳定,体现了良好的可扩展性
- 不做场景分割直接压缩会导致性能下降(38.80% < 40.00%),说明语义连贯的分割是有效压缩的前提
- 超参数分析显示框架在不同设置下表现稳定:分割阈值 \(\tau=0.8\)、空间窗口 \(a=2\)、场景容量-召回对 \(m=8, k=3\) 时最优
亮点与洞察¶
- 无需训练的即插即用设计:Vista 作为模型无关的推理时框架,可以直接增强任何视觉语言模型的流式视频处理能力,实用性极强
- 场景粒度的直觉非常自然:人类理解视频也是以"场景"为基本单元,而非逐帧处理。以场景为粒度进行压缩和检索,符合视频信息的自然组织方式
- GPU-CPU 协同的内存管理思路巧妙:压缩 token 留在 GPU 做快速索引,完整帧存在 CPU 做按需恢复,类似操作系统的虚拟内存层级管理
- MA 任务上的巨大提升表明,场景级检索特别适合需要跨模态对齐的任务
局限与展望¶
- 在快速运动或突变的高动态场景中,场景边界检测困难,退化为单帧召回
- 静态场景过长时需要强制截断以避免内存溢出,可能损失信息
- 场景 token 为单向量表示,对于包含复杂多事件的场景可能表达能力不足
- 当前仅在 StreamingBench 等基准上验证,缺少在真实实时部署场景下的端到端性能评估
- 压缩策略完全基于池化,未引入可学习的压缩模块,可能存在信息损失的上限问题
相关工作与启发¶
- 长视频 QA 方向(LLaMA-VID、Chat-UniVi):通过 token 合并和稀疏采样处理长视频,但假定视频和问题同时可用,不适用于流式场景
- 流式视频 QA 方向(Flash-VStream、Dispider、ReKV、StreamMem):以帧或 KV cache 为粒度做压缩/检索,但对时间噪声敏感且检索效果有限
- Vista 的场景感知思路可以与 KV cache 压缩方法互补,做多层级的记忆管理
- GPU-CPU 卸载策略可推广到更广泛的长序列推理场景(如长文档、多轮对话)
评分¶
- 新颖性: ⭐⭐⭐⭐ 场景感知压缩+召回的组合有清晰的直觉和系统性设计,但核心技术(池化、Top-k 检索)较为基础
- 实验充分度: ⭐⭐⭐⭐ 多基准评估 + 消融实验 + 超参数分析 + 可视化,但缺少更多 backbone 的验证
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,图示直观,问题定义严谨
- 价值: ⭐⭐⭐⭐ 无训练即插即用的设计有很高的实用价值,为流式视频问答提供了一个简洁有效的基线
相关论文¶
- [AAAI 2026] SAM-DAQ: Segment Anything Model with Depth-guided Adaptive Queries for RGB-D Video Salient Object Detection
- [NeurIPS 2025] TabRAG: Improving Tabular Document Question Answering for Retrieval Augmented Generation via Structured Representations
- [AAAI 2026] Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors
- [ECCV 2024] EAFormer: Scene Text Segmentation with Edge-Aware Transformers
- [AAAI 2026] EAGLE: Episodic Appearance- and Geometry-Aware Memory for Unified 2D-3D Visual Query Localization