跳转至

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

日期: 2026-03-12
arXiv: 2603.12262
代码: GitHub
机构: 华中科技大学 & 小米 MiLM Plus
领域: 视频理解 / 流式推理
关键词: streaming video, chain-of-thought, dual memory, real-time reasoning, video LLM

一句话总结

提出 Video Streaming Thinking (VST),让 VideoLLM 在视频播放过程中主动交错生成 CoT 推理(而非等到查询后再推理),通过双记忆系统(短期视觉+长期文本语义)+ 两阶段后训练(SFT+RL)+ 知识图谱数据合成,在 StreamingBench 上达到 79.5%(超越 GPT-4o 6.2%),比 Video-R1 快 15.7 倍。

研究背景与动机

  1. 领域现状: VideoLLM 在离线视频理解上表现良好,但在线流式场景需要显式推理和实时响应的平衡。现有在线模型(如 Flash-VStream、VideoLLM-online)聚焦流式感知,缺乏显式分析推理。

  2. 现有痛点: 直接对流式视频施加 CoT 测试时缩放会导致不可接受的 QA 响应延迟——查询后才开始逐步推理,无法满足实时需求。

  3. 核心 idea: 受人类神经耦合认知启发,在视频播放期间就主动摊销 LLM 推理——"看的同时想",将推理成本前置到查询到来之前。

方法详解

1. VST 范式:流式思考

将流式思考建模为多轮视频对话任务:视频流被切分为固定视觉 token 容量 \(L\) 的片段 \(\mathbf{c}^k\),每个间隔 \(k\) 模型根据当前片段和累积记忆生成流式思考 \(\mathbf{z}^k\)。最终概率分解为:

\[p(\mathbf{y}|\mathbf{q},\mathcal{V}) = p(\mathbf{y}|\mathbf{q},\mathbf{c}^K,\mathbf{m}^K) \prod_{k=1}^{K-1} p(\mathbf{z}^k|\mathbf{c}^k,\mathbf{m}^{k-1})\]

2. 双记忆系统

  • 短期视觉记忆: 当前片段的原生视觉 token,保持最新视觉上下文
  • 长期文本语义记忆: 历史流式思考的文本摘要,采用 FIFO 策略淘汰最早条目,以有限预算覆盖无限长视频流

3. 两阶段后训练

  • VST-SFT: 使用流式注意力掩码强制时间因果性,仅允许关注当前视觉缓冲和历史文本上下文,从离策略专家数据学习流式推理协议
  • VST-RL: 基于 verl 框架的在策略强化学习,rollout batch=256、group size=8,通过最终答案正确性的可验证奖励端到端优化中间推理步骤质量

4. 知识图谱数据合成

将长视频中的实体和时序关系建模为知识图谱,通过采样路径构建证据链,驱动离线 VideoLLM 生成复杂 QA 及对应中间 CoT,最终合成 100K 高质量流式推理样本。

实验关键数据

在线视频基准(StreamingBench):

模型 OP CR CS ATP EU TR Overall
GPT-4o 77.1 80.5 83.9 76.5 70.2 83.8 73.3
Gemini 1.5 Pro 79.0 80.5 83.5 79.7 80.0 84.7 75.7
Streamforest-7B 83.1 82.8 82.7 84.3 77.5 78.2 77.3
VST-7B 85.4 82.0 86.4 89.1 74.2 87.2 79.5

OVO-Bench: VST-7B 达到 59.3%,超越 Streamo (57.9%)、Streamforest (55.6%),Backward Tracing 子任务达 56.7%(超 Streamforest +4.7%)。

离线基准对比:

模型 VideoMME-Long VideoMME Overall LongVideoBench VideoHolmes
Video-R1-7B - 61.4 - 36.5
TimeChatOnline-7B 48.4 62.4 55.4 -
VST-7B 55.3 64.9 58.0 41.9

消融实验

  • 数据配比: 20K LLaVA-Vid + 30K VST 数据相比纯 50K LLaVA-Vid,OVO-Bench 提升 +6.6%
  • 训练阶段互补: VST-SFT 主要提升 Backward 记忆能力(+9.2%),VST-RL 增强 Forward 预测(+12.7%),两者结合达到最优(OVO-Bench 59.3%,VideoMME 64.9%)
  • 思考次数: 最大思考次数设为 4 次,在效率和性能间取得平衡

亮点与局限

亮点:

  • "观看时思考"范式将推理成本从查询时分摊到播放时,7B 模型超越 GPT-4o (+6.2%) 和 Gemini 1.5 Pro (+3.8%)
  • SFT 和 RL 两阶段各有侧重(记忆 vs 预测),组合后互补增益显著
  • KG 驱动的数据合成保证了多跳推理和时间因果对齐

局限:

  • 训练需 32×80GB GPU,资源门槛较高
  • 视觉编码器和投影层全程冻结,可能限制视觉表征适应性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 流式主动推理是全新范式,将测试时缩放前置到播放阶段
  • 实验充分度: ⭐⭐⭐⭐ 5 个基准 + 详细消融 + 与闭源模型全面对比
  • 价值: ⭐⭐⭐⭐⭐ 在线视频理解实时推理的实用方案,准确性与延迟双赢