Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously¶

日期: 2026-03-12
arXiv: 2603.12262
代码: GitHub
机构: 华中科技大学 & 小米 MiLM Plus
领域: 视频理解 / 流式推理
关键词: streaming video, chain-of-thought, dual memory, real-time reasoning, video LLM

一句话总结¶

提出 Video Streaming Thinking (VST)，让 VideoLLM 在视频播放过程中主动交错生成 CoT 推理（而非等到查询后再推理），通过双记忆系统（短期视觉+长期文本语义）+ 两阶段后训练（SFT+RL）+ 知识图谱数据合成，在 StreamingBench 上达到 79.5%（超越 GPT-4o 6.2%），比 Video-R1 快 15.7 倍。

研究背景与动机¶

领域现状: VideoLLM 在离线视频理解上表现良好，但在线流式场景需要显式推理和实时响应的平衡。现有在线模型（如 Flash-VStream、VideoLLM-online）聚焦流式感知，缺乏显式分析推理。
现有痛点: 直接对流式视频施加 CoT 测试时缩放会导致不可接受的 QA 响应延迟——查询后才开始逐步推理，无法满足实时需求。
核心 idea: 受人类神经耦合认知启发，在视频播放期间就主动摊销 LLM 推理——"看的同时想"，将推理成本前置到查询到来之前。

方法详解¶

1. VST 范式：流式思考¶

将流式思考建模为多轮视频对话任务：视频流被切分为固定视觉 token 容量 \(L\) 的片段 \(\mathbf{c}^k\)，每个间隔 \(k\) 模型根据当前片段和累积记忆生成流式思考 \(\mathbf{z}^k\)。最终概率分解为：

\[p(\mathbf{y}|\mathbf{q},\mathcal{V}) = p(\mathbf{y}|\mathbf{q},\mathbf{c}^K,\mathbf{m}^K) \prod_{k=1}^{K-1} p(\mathbf{z}^k|\mathbf{c}^k,\mathbf{m}^{k-1})\]

2. 双记忆系统¶

短期视觉记忆: 当前片段的原生视觉 token，保持最新视觉上下文
长期文本语义记忆: 历史流式思考的文本摘要，采用 FIFO 策略淘汰最早条目，以有限预算覆盖无限长视频流

3. 两阶段后训练¶

VST-SFT: 使用流式注意力掩码强制时间因果性，仅允许关注当前视觉缓冲和历史文本上下文，从离策略专家数据学习流式推理协议
VST-RL: 基于 verl 框架的在策略强化学习，rollout batch=256、group size=8，通过最终答案正确性的可验证奖励端到端优化中间推理步骤质量

4. 知识图谱数据合成¶

将长视频中的实体和时序关系建模为知识图谱，通过采样路径构建证据链，驱动离线 VideoLLM 生成复杂 QA 及对应中间 CoT，最终合成 100K 高质量流式推理样本。

实验关键数据¶

在线视频基准（StreamingBench）:

模型	OP	CR	CS	ATP	EU	TR	Overall
GPT-4o	77.1	80.5	83.9	76.5	70.2	83.8	73.3
Gemini 1.5 Pro	79.0	80.5	83.5	79.7	80.0	84.7	75.7
Streamforest-7B	83.1	82.8	82.7	84.3	77.5	78.2	77.3
VST-7B	85.4	82.0	86.4	89.1	74.2	87.2	79.5

OVO-Bench: VST-7B 达到 59.3%，超越 Streamo (57.9%)、Streamforest (55.6%)，Backward Tracing 子任务达 56.7%（超 Streamforest +4.7%）。

离线基准对比:

模型	VideoMME-Long	VideoMME Overall	LongVideoBench	VideoHolmes
Video-R1-7B	-	61.4	-	36.5
TimeChatOnline-7B	48.4	62.4	55.4	-
VST-7B	55.3	64.9	58.0	41.9

消融实验¶

数据配比: 20K LLaVA-Vid + 30K VST 数据相比纯 50K LLaVA-Vid，OVO-Bench 提升 +6.6%
训练阶段互补: VST-SFT 主要提升 Backward 记忆能力（+9.2%），VST-RL 增强 Forward 预测（+12.7%），两者结合达到最优（OVO-Bench 59.3%，VideoMME 64.9%）
思考次数: 最大思考次数设为 4 次，在效率和性能间取得平衡

亮点与局限¶

亮点:

"观看时思考"范式将推理成本从查询时分摊到播放时，7B 模型超越 GPT-4o (+6.2%) 和 Gemini 1.5 Pro (+3.8%)
SFT 和 RL 两阶段各有侧重（记忆 vs 预测），组合后互补增益显著
KG 驱动的数据合成保证了多跳推理和时间因果对齐

局限:

训练需 32×80GB GPU，资源门槛较高
视觉编码器和投影层全程冻结，可能限制视觉表征适应性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 流式主动推理是全新范式，将测试时缩放前置到播放阶段
实验充分度: ⭐⭐⭐⭐ 5 个基准 + 详细消融 + 与闭源模型全面对比
价值: ⭐⭐⭐⭐⭐ 在线视频理解实时推理的实用方案，准确性与延迟双赢