Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously¶
日期: 2026-03-12
arXiv: 2603.12262
代码: GitHub
机构: 华中科技大学 & 小米 MiLM Plus
领域: 视频理解 / 流式推理
关键词: streaming video, chain-of-thought, dual memory, real-time reasoning, video LLM
一句话总结¶
提出 Video Streaming Thinking (VST),让 VideoLLM 在视频播放过程中主动交错生成 CoT 推理(而非等到查询后再推理),通过双记忆系统(短期视觉+长期文本语义)+ 两阶段后训练(SFT+RL)+ 知识图谱数据合成,在 StreamingBench 上达到 79.5%(超越 GPT-4o 6.2%),比 Video-R1 快 15.7 倍。
研究背景与动机¶
-
领域现状: VideoLLM 在离线视频理解上表现良好,但在线流式场景需要显式推理和实时响应的平衡。现有在线模型(如 Flash-VStream、VideoLLM-online)聚焦流式感知,缺乏显式分析推理。
-
现有痛点: 直接对流式视频施加 CoT 测试时缩放会导致不可接受的 QA 响应延迟——查询后才开始逐步推理,无法满足实时需求。
-
核心 idea: 受人类神经耦合认知启发,在视频播放期间就主动摊销 LLM 推理——"看的同时想",将推理成本前置到查询到来之前。
方法详解¶
1. VST 范式:流式思考¶
将流式思考建模为多轮视频对话任务:视频流被切分为固定视觉 token 容量 \(L\) 的片段 \(\mathbf{c}^k\),每个间隔 \(k\) 模型根据当前片段和累积记忆生成流式思考 \(\mathbf{z}^k\)。最终概率分解为:
2. 双记忆系统¶
- 短期视觉记忆: 当前片段的原生视觉 token,保持最新视觉上下文
- 长期文本语义记忆: 历史流式思考的文本摘要,采用 FIFO 策略淘汰最早条目,以有限预算覆盖无限长视频流
3. 两阶段后训练¶
- VST-SFT: 使用流式注意力掩码强制时间因果性,仅允许关注当前视觉缓冲和历史文本上下文,从离策略专家数据学习流式推理协议
- VST-RL: 基于 verl 框架的在策略强化学习,rollout batch=256、group size=8,通过最终答案正确性的可验证奖励端到端优化中间推理步骤质量
4. 知识图谱数据合成¶
将长视频中的实体和时序关系建模为知识图谱,通过采样路径构建证据链,驱动离线 VideoLLM 生成复杂 QA 及对应中间 CoT,最终合成 100K 高质量流式推理样本。
实验关键数据¶
在线视频基准(StreamingBench):
| 模型 | OP | CR | CS | ATP | EU | TR | Overall |
|---|---|---|---|---|---|---|---|
| GPT-4o | 77.1 | 80.5 | 83.9 | 76.5 | 70.2 | 83.8 | 73.3 |
| Gemini 1.5 Pro | 79.0 | 80.5 | 83.5 | 79.7 | 80.0 | 84.7 | 75.7 |
| Streamforest-7B | 83.1 | 82.8 | 82.7 | 84.3 | 77.5 | 78.2 | 77.3 |
| VST-7B | 85.4 | 82.0 | 86.4 | 89.1 | 74.2 | 87.2 | 79.5 |
OVO-Bench: VST-7B 达到 59.3%,超越 Streamo (57.9%)、Streamforest (55.6%),Backward Tracing 子任务达 56.7%(超 Streamforest +4.7%)。
离线基准对比:
| 模型 | VideoMME-Long | VideoMME Overall | LongVideoBench | VideoHolmes |
|---|---|---|---|---|
| Video-R1-7B | - | 61.4 | - | 36.5 |
| TimeChatOnline-7B | 48.4 | 62.4 | 55.4 | - |
| VST-7B | 55.3 | 64.9 | 58.0 | 41.9 |
消融实验¶
- 数据配比: 20K LLaVA-Vid + 30K VST 数据相比纯 50K LLaVA-Vid,OVO-Bench 提升 +6.6%
- 训练阶段互补: VST-SFT 主要提升 Backward 记忆能力(+9.2%),VST-RL 增强 Forward 预测(+12.7%),两者结合达到最优(OVO-Bench 59.3%,VideoMME 64.9%)
- 思考次数: 最大思考次数设为 4 次,在效率和性能间取得平衡
亮点与局限¶
亮点:
- "观看时思考"范式将推理成本从查询时分摊到播放时,7B 模型超越 GPT-4o (+6.2%) 和 Gemini 1.5 Pro (+3.8%)
- SFT 和 RL 两阶段各有侧重(记忆 vs 预测),组合后互补增益显著
- KG 驱动的数据合成保证了多跳推理和时间因果对齐
局限:
- 训练需 32×80GB GPU,资源门槛较高
- 视觉编码器和投影层全程冻结,可能限制视觉表征适应性
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 流式主动推理是全新范式,将测试时缩放前置到播放阶段
- 实验充分度: ⭐⭐⭐⭐ 5 个基准 + 详细消融 + 与闭源模型全面对比
- 价值: ⭐⭐⭐⭐⭐ 在线视频理解实时推理的实用方案,准确性与延迟双赢