Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models¶

日期: 2026-03-03
arXiv: 2603.02872
代码: 有
领域: 视频理解
关键词: 流式推理, Chain-of-Thought, 视频理解, KV缓存, 实时推理

一句话总结¶

TaYS 提出流式视频 CoT 推理范式，通过流式注意力掩码、解耦位置编码和并行双 KV 缓存机制，使 LVLM 在接收视频帧的同时进行增量推理，将首 token 延迟从 10.6 秒降至近零，推理-事件偏差减少 55%。

领域现状：LVLM 的视频推理能力不断进步，但绝大多数系统采用"先看完后思考"的批处理范式——必须获得完整视频后才开始推理。
现有痛点：(1) 批处理带来高延迟：视频越长，视觉事件和推理步骤之间的时间差越大；(2) "时序漂移"：模型丢失早期线索，导致幻觉和上下文不连贯；(3) 与真实世界脱节：自动驾驶、机器人遥操作等场景中视频是持续流而非静态文件。
核心矛盾：人类认知是增量式的（边看边想），但 LVLM 是批处理式的——这种范式错配限制了实时应用。朴素的交错处理（交替处理帧和生成推理）虽能模拟流式，但视觉编码和文本生成串行阻塞，形成计算瓶颈。
切入角度：设计真正并行的流式推理架构，视觉编码和推理生成可以同时进行，通过因果掩码保证时序正确性。
核心 idea 一句话：解耦视觉和推理的 KV 缓存使二者可并行执行，流式注意力掩码保证推理只看到已观察帧。

TaYS 是一个监督微调框架，包含三个创新：流式注意力掩码（保证时序因果性）、解耦位置编码（避免跨模态索引冲突）、并行双 KV 缓存（解耦视觉编码和推理生成）。基于 Qwen2.5-VL 实例化。

流式视频 CoT 数据构造：
- 基于 VideoEspresso 训练集，2FPS 重采样，时间戳对齐关键帧
- GPT-4o 生成 \((Q_t, R_t, A_t)\) 三元组——时间锚定的问题、推理步骤和答案
- BGE-M3 嵌入计算语义一致性分数过滤低质量样本
- 插入 <EOT> 标记分隔最小推理单元
流式注意力掩码：
- 为推理 token 构建掩码：位置 \(i\) 的推理 token 只能注意到位置 \(j \leq i - N_v\) 的视觉 token
- 效果：每个推理步骤只能整合当前时间窗口内的视觉信息，防止未来帧的信息泄漏
- 标准因果掩码用于其它情况
解耦位置编码：
- 问题：标准 RoPE 中推理位置偏移 \(N_v\)，流式场景下 \(N_v\) 持续增长导致相对位置不稳定
- 解决方案：视觉和推理各自独立编号 \(\text{pos}(v_s) = s\), \(\text{pos}(r_t) = t\)
- 效果：相对时间距离 \((t-s)\) 语义一致，不受序列长度影响
并行双 KV 缓存：
- 将 KV 缓存拆分为视觉缓存和推理缓存，通过动态合并/拆分操作实现并行
- 视觉编码和推理生成可以同时进行：新帧入缓存的同时推理 token 在生成
- 相比交错范式：缩短了有效注意力路径，第一帧到达即可开始推理

方法	准确率↑	TTFT↓	偏差↓
Batch w/o thinking	28.89%	10.6s	-
Batch with thinking	31.57%	10.6s	1.52s
Interleaved SFT	34.32%	~0	0.98s
TaYS	36.50%	~0	0.69s