跳转至

ThinkStream: Thinking in Streaming Video

会议: CVPR 2025
arXiv: 2603.12938
代码: 待确认
领域: 视频理解 / 强化学习
关键词: 流式视频, 实时推理, 增量推理, 流式记忆, RLVR, 因果性

一句话总结

提出 ThinkStream,采用 Watch-Think-Speak 范式实现流式视频的实时连续推理,通过 RCSM(推理压缩流式记忆)将推理 trace 作为紧凑语义锚点替代旧视觉 token,配合 Streaming RLVR 训练策略,在保持低延迟/低内存的同时超越现有在线视频模型。

研究背景与动机

  1. 流式视频的实际需求: 直播监控、自动驾驶、交互式助手等场景需要对连续视频流实时推理,不能等待视频结束
  2. 因果性约束: 流式场景中模型只能看到已经到达的帧,不能利用未来信息,与离线视频理解根本不同
  3. 内存和计算约束: 长时间流的视觉 token 线性增长,直接缓存所有历史帧在计算和内存上不可行
  4. 瘖点: 现有在线视频模型通常采用简单压缩(均匀采样/pooling)来限制 token 数,丢失大量语义信息
  5. 关键观察: 推理 trace(思维过程)的语义密度远高于原始视觉 token,可以作为更紧凑的记忆表示
  6. 核心idea: 用推理 trace 作为压缩的语义锚点替代旧视觉 token,实现可控的流式记忆管理

方法详解

整体框架: Watch-Think-Speak

ThinkStream 将视频流处理分为三个交替阶段:

  1. Watch: 接收新的视频块(video chunk),提取视觉特征
  2. Think: 对当前视频块进行增量推理,生成推理 trace(内部思维)
  3. Speak: 当收到用户询问或触发条件时,输出可见的回答

这三个阶段持续循环,实现对视频流的实时连续理解。

关键设计 1: RCSM (Reasoning-Compressed Streaming Memory)

  • 核心思想: 用推理 trace 的 token 替代旧的视觉 token
  • 流程:
  • 当新 chunk 到达时,先用当前记忆 + 新视觉 token 生成推理 trace
  • 将老的视觉 token 淘汰,用推理 trace 的 token 作为更紧凑的语义摘要保留
  • 记忆窗口大小可控,维持固定的 token 数量
  • 优势: 推理 trace 比视觉 token 更紧凑且信息密度更高,同样的 token budget 能编码更多语义内容

关键设计 2: Streaming RLVR

专门为流式场景设计的强化学习训练策略,结合三种奖励:

  • 格式奖励: 鼓励模型输出结构化的推理过程
  • 延迟奖励: 惩罚过高的响应延迟,促使模型及时响应
  • 准确性奖励: 保证回答的正确性

三种奖励的加权组合引导模型在准确性和实时性之间取得平衡。

关键设计 3: 增量推理机制

  • 每个新 chunk 到达时只对该 chunk 进行推理,不重新处理历史帧
  • 推理复杂度与视频总时长无关,仅与 chunk 大小相关
  • 支持“随时提问”:用户可在任意时刻插入查询,模型立即基于当前记忆回答

实验关键数据

主实验

模型 OVO-Bench Avg 类型 参数
StreamChat 在线 ~7B
VideoLLM-Online 在线 ~7B
ThinkStream-3B 最优 在线 3B
  • ThinkStream-3B 在 OVO-Bench 上超越所有现有在线视频模型
  • 甚至超越更大的基线模型
  • 在长时间流上保持稳定的低延迟和低内存占用

消融实验

配置 性能 内存 说明
完整 RCSM 最优 固定 推理压缩记忆
无压缩(全缓存) 略优 线性增长 不可持续
均匀采样压缩 下降 固定 丢失关键信息
无 Streaming RLVR 下降 固定 延迟增加
无延迟奖励 可比 固定 响应过慢

关键发现

  • 推理 trace 作为记忆比原始视觉 token 更紧凑、信息密度更高
  • RCSM 实现了固定内存开销 + 无损性能的组合
  • Streaming RLVR 的延迟奖励对实时性至关重要
  • 3B 参数即可达到竞争力,说明架构设计比模型范开重要

亮点与洞察

  1. 推理作为压缩的创新视角: 推理 trace 不仅是输出,还可以作为紧凑的内存表示,这是一个非常新颖的观点
  2. Watch-Think-Speak 范式: 与人类观看视频的方式相似,持续观察、不断思考、按需表达
  3. RLVR 的流式适配: 将离线 RL 训练策略成功适配到流式场景,延迟奖励是关键创新
  4. 可扩展性: 固定内存开销意味着可以处理任意长度的视频流

局限性

  • 推理 trace 的质量直接影响记忆质量,错误推理会污染后续记忆
  • chunk 大小的选择是延迟与质量的权衡,需要手动调优
  • 目前仅基于 OVO-Bench 评估,对更多流式视频场景的泛化性有待验证
  • Streaming RLVR 的训练成本和收敛性未详细讨论

相关工作与启发

  • StreamChat / VideoLLM-Online: 现有在线视频模型,但未利用推理作为记忆压缩
  • Chain-of-Thought: ThinkStream 将 CoT 的推理过程从“输出工具”升级为“内存管理工具”
  • 启发: 推理压缩思路可推广到其他需要长期记忆的流式场景(流式音频、实时对话等)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 推理作为压缩记忆是非常新颖的观点
  • 实验充分度: ⭐⭐⭐☆ — 消融完整但 benchmark 还不够丰富
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分
  • 实用性: ⭐⭐⭐⭐ — 流式视频是实际应用的强需求
  • 综合推荐: ⭐⭐⭐⭐⭐