FlashVID: Efficient Video Large Language Models via Training-free Tree-Based Spatiotemporal Token Merging¶

会议: ICLR 2026
arXiv: 2602.08024
代码: https://github.com/Fanziyang-v/FlashVID (有)
领域: 视频理解 / LLM效率 / 多模态VLM
关键词: 视觉token压缩, 时空冗余, token合并, 视频大语言模型, 免训练加速

一句话总结¶

提出 FlashVID，一个免训练的视频大语言模型推理加速框架，通过树状时空 token 合并（TSTM）联合建模空间和时间冗余，仅保留 10% 的视觉 token 就能保持 LLaVA-OneVision 99.1% 的性能，并能将 Qwen2.5-VL 的输入帧数提升 10 倍。

研究背景与动机¶

领域现状：视频大语言模型（VLLMs）在视频理解任务上表现优秀，但需要处理大量视觉 token（如 32帧 x 196 token/帧 = 6272 个 token），attention 计算复杂度与序列长度平方成正比，推理开销巨大。
现有痛点：现有加速方法（FastV, VisionZip, PruneVID）通常独立压缩空间冗余和时间冗余，忽视了时空关系的内在耦合。特别是 Temporal Token Merging（TTM）假设相邻帧中语义相似的 token 位于相同空间位置，但视频中目标会移动、变形、缩放。
核心矛盾：TTM 的固定空间对应关系在动态视频中不成立——最相关的视觉特征在相邻帧中可能不在同一空间位置，强行合并会引入噪声，扭曲视频表征。
本文要解决什么？ 如何在不训练的前提下，联合建模空间和时间冗余进行高效压缩，同时适应视频的动态特性？
切入角度：观察到空间冗余和时间冗余是耦合的（某帧的冗余区域往往在多帧中持续存在），以及时间冗余不绑定于固定空间位置。
核心idea一句话：用层次化的时空冗余树替代固定空间位置的帧间 token 对应，匹配最相似而非同位置的 token 进行合并。

方法详解¶

整体框架¶

FlashVID 包含两个协同模块：(1) ADTS（Attention and Diversity-based Token Selection）先从每帧中选出最具代表性且多样的 token 子集，(2) TSTM（Tree-based Spatiotemporal Token Merging）在剩余 token 上构建跨帧的冗余树，聚合冗余 token。最终输出 = 选出的重要 token + 冗余树聚合后的 token。

关键设计¶

树状时空 Token 合并（TSTM）:
做什么：跨帧构建冗余树，将语义相似的 token 聚合为一个
核心思路：对相邻帧计算 token 间余弦相似度矩阵，每个 token 连接到前一帧中最相似的 token（而非同位置的），相似度需超过阈值。由此渐进构建跨帧冗余树，树中所有 token 用均值池化聚合为一个。
设计动机：与 TTM 的固定空间对应不同，TSTM 允许 token 在空间中自由匹配，能捕捉目标运动导致的位置变化。实验显示，相同阈值下 TSTM 比 TTM 合并更多 token，且合并时的平均相似度更高。
注意力+多样性 Token 选择（ADTS）:
做什么：从每帧中选出信息量最大且特征多样的 token 子集
核心思路：将 token 选择建模为 Max-Min Diversity Problem（MMDP），在余弦距离矩阵上求解，同时用两个校准项调节：(a) CLS 注意力权重——标记被 encoder 关注最多的 token，(b) 事件相关性——通过全局平均池化得到帧级嵌入，计算每个 token 与全视频事件的相关性。
设计动机：单纯求解 MMDP 只保证多样性，可能漏掉最重要的 token。加入注意力和事件相关性校准后，既保证多样性又保证信息量。
两阶段压缩流程:
Stage 1: ADTS 选出每帧的重要 token 集合（保留不动）
Stage 2: 剩余 token 进入 TSTM 构建冗余树并聚合
最终输出：聚合 token + 各帧保留 token 的并集

训练策略¶

无需训练，直接作为即插即用模块嵌入现有 VLLM。

实验关键数据¶

主实验¶

在 LLaVA-OneVision（32帧）上，5 个视频理解基准的平均表现：

方法	保留比例	VideoMME	EgoSchema	LongVideoBench	MVBench	平均	相对准确率
Vanilla	100%	58.5	60.3	56.6	58.3	58.4	100.0%
FastV	10%	51.5	51.2	52.3	52.3	51.8	88.7%
VisionZip	10%	51.6	55.6	50.1	50.3	51.9	88.9%
FastVID	10%	55.5	56.1	55.5	57.7	56.2	96.2%
FlashVID	10%	57.2	59.5	56.0	57.7	57.9	99.1%

Qwen2.5-VL 帧数扩展实验¶

设置	帧数	VideoMME	MLVU	相对提升
Vanilla	16帧	65.7	67.6	baseline
FlashVID	160帧	69.9	74.5	+8.6%

消融实验¶

配置	VideoMME	EgoSchema	平均
Full FlashVID (ADTS+TSTM)	57.2	59.5	57.9
w/o TSTM (仅 ADTS)	56.2	58.0	56.7
w/o ADTS (仅 TSTM)	56.5	59.1	57.0
TTM 替代 TSTM	55.5	57.8	56.5

关键发现¶

TSTM 贡献最大，从仅 ADTS 到加入 TSTM 提升约 1.2 个点
用 TTM 替代 TSTM 后性能明显下降，验证了动态空间对应的重要性
10% token 保留率下 FlashVID 保持 99.1% 性能，远超 FastV（88.7%）和 VisionZip（88.9%）
在 Qwen2.5-VL 上延长输入帧数到 10 倍，同等计算预算下性能提升 8.6%

亮点与洞察¶

树状动态匹配：核心洞察简单但有效——相邻帧的相关 token 不在同一位置，用全局最相似匹配替代固定位置匹配。这个思路可迁移到任何涉及跨帧对应的任务。
免训练即插即用：无需重新训练，理论上可适配任何 VLLM，工程价值高。
帧数扩展应用：通过压缩 token 节省的计算量"交换"为更多输入帧，巧妙地将效率提升转化为能力提升。

局限性 / 可改进方向¶

合并阈值是超参数，不同视频的最优阈值可能不同，自适应阈值策略值得探索
TSTM 对超长视频和高分辨率输入，构建相似度矩阵的开销不可忽略
仅在 VLLM 的推理阶段压缩，未考虑训练时的效率提升
对静态场景（冗余极高）和高动态场景（冗余极低）的压缩效果差异未充分分析

评分¶

新颖性: ⭐⭐⭐⭐ 树状时空合并思路简洁有效，但整体框架是已有组件的组合
实验充分度: ⭐⭐⭐⭐⭐ 3个VLLM x 5个基准 x 多个压缩比例，非常全面
写作质量: ⭐⭐⭐⭐ 动机清晰，图示直观，算法描述完整
价值: ⭐⭐⭐⭐⭐ 免训练、即插即用、性能损失极小，实用价值很高