WAT: Online Video Understanding Needs Watching Before Thinking¶
日期: 2026-03-12
arXiv: 2603.13412
代码: 无
领域: 视频理解 / 在线视频
关键词: online video, streaming, hierarchical memory, retrieval, video LLM
一句话总结¶
提出 WAT(Watching Before Thinking),将在线视频理解解耦为查询无关的"观察"阶段(层级记忆:STM 高保真滑窗 + LTM 冗余感知淘汰)和查询触发的"思考"阶段(上下文感知检索 + RACL 对比学习),在 StreamingBench 上达到 77.7%、OVO-Bench 上 55.2%,显著超越现有开源在线 Video LLM。
研究背景与动机¶
-
领域现状: Video LLM 在离线视频理解上表现优秀,但在线流式场景需要在严格内存约束下保持丰富历史上下文和时间连贯性。
-
现有痛点: 采样时压缩(激进丢帧)→ 丢失细粒度时空推理能力;存储时压缩(基于相似度合并相邻帧)→ 前景活动被背景淹没,时间连贯性被破坏。
-
核心矛盾: 如何在有限内存下同时保持细粒度时间细节和长期语义多样性?
-
核心 idea: 先看再想——观察阶段用层级记忆(不依赖查询)持续缓存视频;思考阶段再根据查询从记忆中检索相关帧进行推理。
方法详解¶
整体框架¶
视频流 → Watching 阶段(STM + LTM 持续更新)→ 查询到达 → Thinking 阶段(查询+STM 融合 → 从 LTM 检索 top-K → MLLM 推理)。
关键设计¶
-
Short-Term Memory (STM):
- FIFO 滑窗缓冲区,持续缓存最近帧,捕获细粒度时间动态
- 超出容量自动淘汰最旧帧
-
Long-Term Memory (LTM):
- 固定容量 \(N_L = 768\),存储语义多样的历史显著帧
- 冗余感知淘汰策略:计算所有帧的成对余弦相似度 → 冗余分数 \(\bar{s}_i = \frac{1}{N_L}\sum_j S_{ij}\) → 淘汰最冗余帧(保护最近 10% 帧)
- 确保长期记忆不被冗余内容充斥
-
Context-Aware Retrieval + RACL:
- 查询到达后,用注意力机制融合查询嵌入和 STM 特征得到条件化查询向量 \(\mathbf{z_q}\)
- 用 \(\mathbf{z_q}\) 在 LTM 中检索 top-K 相关帧
- RACL(检索对齐对比学习):训练时用对比 loss 对齐检索到的帧与查询语义(正例: 匹配帧, 负例: 随机帧 + LTM 采样)
-
WAT-85K 数据集: 专为在线 VideoQA 设计,强调实时感知、回溯追踪、主动预测
实验关键数据¶
主实验¶
| 模型 | StreamingBench | OVO-Bench |
|---|---|---|
| GPT-4o | 73.28% | - |
| Gemini 1.5 Pro | 75.69% | - |
| Flash-VStream (开源) | ~60% | - |
| WAT | 77.7% | 55.2% |
消融实验¶
| 配置 | 关键发现 |
|---|---|
| 无 LTM | 长程推理能力大幅下降 |
| 无冗余感知淘汰 | LTM 被相似帧充斥,语义多样性降低 |
| 无 RACL | 检索相关性下降 |
关键发现¶
- 超越闭源模型(GPT-4o、Gemini 1.5 Pro)
- 在线处理同时在离线评估上也不弱于强离线 MLLM
- 冗余感知淘汰是保持长期语义多样性的关键
亮点与洞察¶
- 先看再想的范式转变:现有在线方法都是查询驱动的反应式更新,会在查询前丢弃信息;WAT 的观察阶段是主动的、查询无关的
- 冗余感知淘汰策略简单高效——通过余弦相似度自动维护记忆多样性,无需复杂的关键帧检测
- 双层记忆的异步更新:STM 高频更新保持时序细节,LTM 选择性替换保持语义多样
局限性 / 可改进方向¶
- LTM 容量 768 是固定超参,不同场景最优容量可能不同
- 检索 top-K 的 K 值选择对性能影响需要更多分析
- WAT-85K 数据集规模相对有限
评分¶
- 新颖性: ⭐⭐⭐⭐ 层级记忆 + 先看再想范式在在线视频理解中新颖
- 实验充分度: ⭐⭐⭐⭐⭐ StreamingBench + OVO-Bench + 消融 + 与闭源模型对比
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰,框架图好
- 价值: ⭐⭐⭐⭐⭐ 在线视频理解的 SOTA,实用价值高