StreamingTOM: Streaming Token Compression for Efficient Video Understanding¶

会议: CVPR 2026
arXiv: 2510.18269
代码: 有项目页面
领域: 多模态VLM / 视频理解
关键词: 流式视频理解, token压缩, KV-cache优化, 因果时序缩减, 4-bit量化记忆

一句话总结¶

针对流式视频 VLM 面临的因果性（无法访问未来帧）和累积性（token 无界增长）两个约束，提出 StreamingTOM——一个免训练、即插即用的两阶段框架，通过因果时序缩减（减少 pre-LLM prefill）和在线量化记忆（4-bit KV-cache 存储+按需检索反量化），实现 15.7× KV-cache 压缩比、较 SOTA LiveVLM 降低 1.2× 峰值内存和 2× 更快 TTFT，在离线基准平均 63.8% 和流式基准 RVS 55.8% 达到免训练方法 SOTA。

背景与动机¶

流式视频理解与离线处理根本不同：(1) 因果性约束——只能看到已有帧，不能利用未来帧信息；(2) 累积性约束——随着时间推移，token 数量无界增长导致内存和延迟不断恶化。现有方法主要在 LLM 后端控制 KV-cache（如 eviction 策略），但忽略了 LLM 前端的 prefill 开销——每一帧都需要处理大量视觉 token 的前向传播，这是延迟的主要来源。

核心问题¶

如何在因果约束下同时解决 pre-LLM prefill 和 post-LLM KV-cache 两个效率瓶颈，实现有界活跃内存的实时流式视频理解？

方法详解¶

整体框架¶

两阶段免训练框架：Stage 1（Causal Temporal Reduction）处理 pre-LLM 瓶颈，Stage 2（Online Quantized Memory）处理 post-LLM 瓶颈。

关键设计¶

因果时序缩减（Causal Temporal Reduction）: 对每帧施加固定的 token 预算上限。Token 选择基于两个信号：(a) 相邻帧间的变化量——只保留有显著变化的区域对应的 token；(b) token 显著性——保留高信息量的 token。通过只处理每帧的紧凑 token 子集，大幅降低 per-frame prefill 成本，确保可预测的延迟。
在线量化记忆（Online Quantized Memory）: 将 KV-cache 中的 token 以 4-bit 格式存储，按需检索相关 token 组并反量化。关键特性：(a) 活跃 KV-cache 大小有上界，不随视频流长度无限增长；(b) 4-bit 量化大幅减少内存占用但保持足够精度；(c) 按需检索避免一次性加载全部历史记忆。
即插即用、免训练: 不需要重新训练模型，可以直接应用于现有 VLM 上。

损失函数 / 训练策略¶

完全免训练方法，无需任何额外训练或微调。

实验关键数据¶

指标	StreamingTOM	对比
KV-cache 压缩比	15.7×	-
峰值内存 vs LiveVLM	1.2× 更低	LiveVLM 是之前 SOTA
TTFT (首token时延) vs LiveVLM	2× 更快	-
离线基准平均准确率	63.8%	免训练方法 SOTA
RVS 流式基准准确率	55.8%	免训练方法 SOTA
RVS 流式基准得分	3.7	免训练方法 SOTA

亮点¶

同时解决 pre-LLM 和 post-LLM 瓶颈：之前方法只管 KV-cache eviction（post-LLM），StreamingTOM 首次在 pre-LLM prefill 层面也做优化
有界活跃内存：活跃 KV-cache 大小不随视频长度增长，理论上可以处理无限长视频流
免训练即插即用：不需要重训练，可直接应用于开源 VLM
实际效率提升显著：15.7× 压缩比和 2× TTFT 加速，对实时部署有重要意义

局限性 / 可改进方向¶

4-bit 量化可能在极端精度要求场景下引入质量损失
基于相邻帧变化的 token 选择可能在快速运动场景下遗漏重要信息
仅基于摘要分析，具体的两阶段交互细节需参阅原文

与相关工作的对比¶

vs LiveVLM: LiveVLM 只做 KV-cache 管理（post-LLM），StreamingTOM 同时优化 pre-LLM 和 post-LLM，内存更低速度更快
vs FastV / TokenPacker: 这些方法关注单张图像的 token 压缩，StreamingTOM 专注于流式视频场景的时序累积问题
vs Video-LLM token pruning: 大多数方法是离线的（可以看全部帧），StreamingTOM 是因果的（只看已有帧）

启发与关联¶

因果时序缩减的思想可以推广到其他流式多模态任务（如实时对话、直播分析）
4-bit 量化记忆 + 按需检索的设计可以与 RAG 类似的 VLM 长文本/长视频处理方法结合
对视频 VLM 的部署落地有直接指导意义

评分¶

新颖性: ⭐⭐⭐⭐ 首次同时地处两个层面的效率瓶颈，4-bit 量化记忆设计新颖
实验充分度: ⭐⭐⭐⭐ 离线和流式基准都达到免训练 SOTA，效率指标全面
写作质量: ⭐⭐⭐⭐ 摘要清晰，问题定义明确
价值: ⭐⭐⭐⭐⭐ 解决了流式视频 VLM 的实际部署痛点，实用价值极高