ThinkStream: Thinking in Streaming Video¶
会议: CVPR 2025
arXiv: 2603.12938
代码: 待确认
领域: 视频理解 / 强化学习
关键词: 流式视频, 实时推理, 增量推理, 流式记忆, RLVR, 因果性
一句话总结¶
提出 ThinkStream,采用 Watch-Think-Speak 范式实现流式视频的实时连续推理,通过 RCSM(推理压缩流式记忆)将推理 trace 作为紧凑语义锚点替代旧视觉 token,配合 Streaming RLVR 训练策略,在保持低延迟/低内存的同时超越现有在线视频模型。
研究背景与动机¶
- 流式视频的实际需求: 直播监控、自动驾驶、交互式助手等场景需要对连续视频流实时推理,不能等待视频结束
- 因果性约束: 流式场景中模型只能看到已经到达的帧,不能利用未来信息,与离线视频理解根本不同
- 内存和计算约束: 长时间流的视觉 token 线性增长,直接缓存所有历史帧在计算和内存上不可行
- 瘖点: 现有在线视频模型通常采用简单压缩(均匀采样/pooling)来限制 token 数,丢失大量语义信息
- 关键观察: 推理 trace(思维过程)的语义密度远高于原始视觉 token,可以作为更紧凑的记忆表示
- 核心idea: 用推理 trace 作为压缩的语义锚点替代旧视觉 token,实现可控的流式记忆管理
方法详解¶
整体框架: Watch-Think-Speak¶
ThinkStream 将视频流处理分为三个交替阶段:
- Watch: 接收新的视频块(video chunk),提取视觉特征
- Think: 对当前视频块进行增量推理,生成推理 trace(内部思维)
- Speak: 当收到用户询问或触发条件时,输出可见的回答
这三个阶段持续循环,实现对视频流的实时连续理解。
关键设计 1: RCSM (Reasoning-Compressed Streaming Memory)¶
- 核心思想: 用推理 trace 的 token 替代旧的视觉 token
- 流程:
- 当新 chunk 到达时,先用当前记忆 + 新视觉 token 生成推理 trace
- 将老的视觉 token 淘汰,用推理 trace 的 token 作为更紧凑的语义摘要保留
- 记忆窗口大小可控,维持固定的 token 数量
- 优势: 推理 trace 比视觉 token 更紧凑且信息密度更高,同样的 token budget 能编码更多语义内容
关键设计 2: Streaming RLVR¶
专门为流式场景设计的强化学习训练策略,结合三种奖励:
- 格式奖励: 鼓励模型输出结构化的推理过程
- 延迟奖励: 惩罚过高的响应延迟,促使模型及时响应
- 准确性奖励: 保证回答的正确性
三种奖励的加权组合引导模型在准确性和实时性之间取得平衡。
关键设计 3: 增量推理机制¶
- 每个新 chunk 到达时只对该 chunk 进行推理,不重新处理历史帧
- 推理复杂度与视频总时长无关,仅与 chunk 大小相关
- 支持“随时提问”:用户可在任意时刻插入查询,模型立即基于当前记忆回答
实验关键数据¶
主实验¶
| 模型 | OVO-Bench Avg | 类型 | 参数 |
|---|---|---|---|
| StreamChat | — | 在线 | ~7B |
| VideoLLM-Online | — | 在线 | ~7B |
| ThinkStream-3B | 最优 | 在线 | 3B |
- ThinkStream-3B 在 OVO-Bench 上超越所有现有在线视频模型
- 甚至超越更大的基线模型
- 在长时间流上保持稳定的低延迟和低内存占用
消融实验¶
| 配置 | 性能 | 内存 | 说明 |
|---|---|---|---|
| 完整 RCSM | 最优 | 固定 | 推理压缩记忆 |
| 无压缩(全缓存) | 略优 | 线性增长 | 不可持续 |
| 均匀采样压缩 | 下降 | 固定 | 丢失关键信息 |
| 无 Streaming RLVR | 下降 | 固定 | 延迟增加 |
| 无延迟奖励 | 可比 | 固定 | 响应过慢 |
关键发现¶
- 推理 trace 作为记忆比原始视觉 token 更紧凑、信息密度更高
- RCSM 实现了固定内存开销 + 无损性能的组合
- Streaming RLVR 的延迟奖励对实时性至关重要
- 3B 参数即可达到竞争力,说明架构设计比模型范开重要
亮点与洞察¶
- 推理作为压缩的创新视角: 推理 trace 不仅是输出,还可以作为紧凑的内存表示,这是一个非常新颖的观点
- Watch-Think-Speak 范式: 与人类观看视频的方式相似,持续观察、不断思考、按需表达
- RLVR 的流式适配: 将离线 RL 训练策略成功适配到流式场景,延迟奖励是关键创新
- 可扩展性: 固定内存开销意味着可以处理任意长度的视频流
局限性¶
- 推理 trace 的质量直接影响记忆质量,错误推理会污染后续记忆
- chunk 大小的选择是延迟与质量的权衡,需要手动调优
- 目前仅基于 OVO-Bench 评估,对更多流式视频场景的泛化性有待验证
- Streaming RLVR 的训练成本和收敛性未详细讨论
相关工作与启发¶
- StreamChat / VideoLLM-Online: 现有在线视频模型,但未利用推理作为记忆压缩
- Chain-of-Thought: ThinkStream 将 CoT 的推理过程从“输出工具”升级为“内存管理工具”
- 启发: 推理压缩思路可推广到其他需要长期记忆的流式场景(流式音频、实时对话等)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 推理作为压缩记忆是非常新颖的观点
- 实验充分度: ⭐⭐⭐☆ — 消融完整但 benchmark 还不够丰富
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分
- 实用性: ⭐⭐⭐⭐ — 流式视频是实际应用的强需求
- 综合推荐: ⭐⭐⭐⭐⭐