StreamingTOM: Streaming Token Compression for Efficient Video Understanding¶

会议: CVPR2026 arXiv: 2510.18269 代码: yige24/StreamingTOM 领域: 视频理解 / 流式视频问答 / Token压缩 关键词: streaming video understanding, token compression, kv-cache quantization, training-free, causal inference

一句话总结¶

提出 StreamingTOM，一个无需训练的两阶段流式视频理解框架：Causal Temporal Reduction (CTR) 在 LLM 前通过因果时序选择将每帧 token 从 196 压缩到 50，Online Quantized Memory (OQM) 在 LLM 后通过 4-bit 量化和按需检索限制 kv-cache 增长，实现 15.7× 压缩比、1.2× 更低峰值显存和 2× 更快 TTFT。

背景与动机¶

流式视频的双重约束：与离线处理不同，流式视频 VLM 面临因果性（无法访问未来帧）和累积性（token 随时间无界增长）两大约束，使得 token 压缩从可选优化变为必要前提。
kv-cache 无界增长：以 LLaVA-OV-7B 为例，1 小时视频在 0.5 fps 下 kv-cache 达 18.8 GB，远超典型 GPU 显存容量，无法维持实时推理。
现有方法仅管理 post-LLM：当前训练无关的流式方法（ReKV、LiveVLM、StreamMem）仅对 LLM 之后的 kv-cache 进行驱逐/压缩，无法降低 pre-LLM prefill 的 \(O(tNLd^2)\) 计算开销。
离线压缩违反因果性：成熟的离线 token 合并/剪枝方法（ToMe、DyCoke、HoliTom）依赖全局/双向注意力和未来帧信息，无法直接用于流式场景。
训练方法成本高：训练式流式方法（Flash-VStream、Dispider）需要针对特定模型的昂贵重训练，难以跨骨干网络迁移。
pre-LLM 因果压缩空白：据作者所知，此前没有训练无关的流式方法在 LLM 之前执行严格因果的 token 削减，留下了重要的效率空间。

方法详解¶

整体框架：两阶段流水线¶

StreamingTOM = OQM₁₆→₄ ∘ CTR_{N→G}，以 group 抽象（每帧固定 G=50 个 token 的帧对齐组）作为两阶段间的接口：

视觉流水线：视觉编码器提取特征 → CTR 压缩 → 写入在线记忆
查询流水线：用户问题驱动解码器 → OQM 检索相关 group → 4-bit 反量化 → 高效生成

Stage 1: Causal Temporal Reduction (CTR)¶

CTR 遵循三个设计原则：严格因果（2 帧窗口）、单遍处理、固定每帧预算 G。

时序相似度计算：对相邻帧 \(t\) 和 \(t{-}1\) 的同位置 token 计算余弦相似度 \(s_t^{(i)}\)，衡量跨帧冗余。
空间显著性：复用视觉编码器的注意力分数 \(\alpha_t^{(i)}\) 作为零成本副产品，通过 chunked attention 避免显存峰值。
静态/动态分类：以阈值 \(\tau_c = 0.9\) 将 token 分为静态集 \(\mathcal{S}_t\)（高相似度，冗余）和动态集 \(\mathcal{D}_t\)（低相似度，新信息）。
自适应预算分配：按照静态/动态比例将 G 个名额分配为 \(k_s\) 和 \(k_d\)，内容变化大时倾斜给动态 token。
双路径处理：
动态路径：按显著性选 top-\(k_d\) token（保留关键新信息）
静态路径：密度聚类合并为 \(k_s\) 个代表 token（去除冗余）
复杂度：每帧 \(O(N + G^2)\)，状态仅需前一帧特征 \(O(Nd)\)，不随流长度增长。

Stage 2: Online Quantized Memory (OQM)¶

OQM 解决 CTR 之后 kv-cache 仍线性增长的问题：

增量 group 量化：每个 group 独立量化为 4-bit（per-head, per-channel 的 scale/offset），同时存储代表性 key \(\bar{\mathbf{k}}_t\)。
检索-反量化范式：查询时用 decoder state 与所有 group 的代表 key 计算余弦相似度，选 top-k 个最相关 group，仅对选中 group 做 4-bit → FP16 反量化。
有界活跃显存：总存储 \(O(T \cdot G \cdot d / 4)\) 保留完整历史，活跃 kv 仅 \(O(k \cdot G \cdot d)\)（\(k \ll T\)），解码延迟不随流长度增长。

压缩比¶

综合 CTR 和 OQM：压缩比 = \(4N/G = 4 \times 196/50 \approx 15.7\times\)。

实验关键数据¶

离线长视频评测（LLaVA-OV-7B backbone）¶

方法	VideoMME Overall	MLVU	EgoSchema	Avg
LLaVA-OV-7B (offline baseline)	58.4	64.7	60.1	61.0
+LiveVLM (training-free SOTA)	57.3	66.3	59.0	60.9
+StreamMem	59.4	66.9	63.0	63.1
+StreamingTOM (ours)	59.9	67.9	63.7	63.8

在线流式评测（RVS benchmark，28GB 显存限制）¶

方法	RVS-Ego Acc/Score	RVS-Movie Acc/Score	Avg Acc/Score
Flash-VStream (训练式)	57.0 / 4.0	53.1 / 3.3	55.0 / 3.6
StreamMem	57.6 / 3.8	52.7 / 3.4	55.2 / 3.6
StreamingTOM	58.3 / 3.9	53.2 / 3.5	55.8 / 3.7

效率指标¶

kv-cache 压缩比：15.7×
峰值显存：相比 LiveVLM 降低 1.2×
TTFT：相比 LiveVLM 加速 2×
1 小时视频 kv-cache：18.8 GB → 1.2 GB
显存增长：16-512 帧仅从 16.0 GB → 16.7 GB（亚线性）
吞吐量：长序列稳定在约 20 tokens/s

消融实验¶

Token数	量化位数	压缩比	VideoMME Overall
40	4-bit	5.1%	58.9
50	4-bit	6.4%	59.9
60	4-bit	7.7%	59.3
50	2-bit	3.2%	58.5

50 token 是最优平衡点：过少（40）丢失关键细节，过多（60）在固定显存下减少时序覆盖
4-bit 量化优于 2-bit，精度-压缩比最优

亮点¶

首创因果 pre-LLM token 压缩：填补了训练无关流式方法中 pre-LLM 压缩空白，将 prefill 复杂度从 \(O(tNLd^2)\) 降至 \(O(tGLd^2)\)。
Group 抽象设计优雅：固定大小的帧对齐 group 同时服务于 CTR 输出和 OQM 存储/检索，保证时序一致性和可预测延迟。
完全即插即用：无需训练，可直接应用于 LLaVA-OV 等不同骨干网络。
实际部署友好：单张 A6000 即可运行，batch-agnostic，显存增长亚线性。
双阶段互补：CTR 降计算、OQM 降显存，两者缺一不可，组合效果远超单阶段。

局限性 / 可改进方向¶

固定 G 可能非最优：所有帧使用相同的 50 token 预算，对信息密度差异大的帧（关键帧 vs 静态帧）不够灵活。
仅验证单一骨干：实验主要基于 LLaVA-OV-7B，未在更大模型（如 72B）或其他架构上验证。
2 帧窗口限制：CTR 的因果窗口仅看相邻两帧，对缓慢渐变场景可能累积误差。
代表性 key 的检索质量：OQM 用均值 key 做检索，可能对细粒度时序推理不够精确。
未评估多模态音频流：仅考虑视觉流，实际流式应用通常伴随音频流。

与相关工作的对比¶

维度	StreamingTOM	LiveVLM/StreamMem	DyCoke/HoliTom	Flash-VStream
Pre-LLM 压缩	✅ CTR	❌	✅ (非因果)	✅ (需训练)
Post-LLM 管理	✅ OQM 4-bit	✅ kv-cache 驱逐	❌	✅ (需训练)
因果约束	✅ 严格	✅	❌ 需未来帧	✅
训练需求	无	无	无	需重训练
压缩比	15.7×	~4×	~4×	N/A

评分¶

新颖性: ⭐⭐⭐⭐ — 首次在训练无关流式方法中引入因果 pre-LLM token 压缩，group 抽象统一两阶段
实验充分度: ⭐⭐⭐⭐ — 覆盖离线/在线两类 benchmark，效率分析详尽，消融完整
写作质量: ⭐⭐⭐⭐⭐ — 问题定义清晰，公式推导严谨，pipeline 图直观
价值: ⭐⭐⭐⭐ — 解决流式视频 VLM 实际部署的显存瓶颈，即插即用实用性强