跳转至

FlashVID: Efficient Video Large Language Models via Training-free Tree-Based Spatiotemporal Token Merging

会议: ICLR 2026
arXiv: 2602.08024
代码: https://github.com/Fanziyang-v/FlashVID (有)
领域: 视频理解 / LLM效率 / 多模态VLM
关键词: 视觉token压缩, 时空冗余, token合并, 视频大语言模型, 免训练加速

一句话总结

提出 FlashVID,一个免训练的视频大语言模型推理加速框架,通过树状时空 token 合并(TSTM)联合建模空间和时间冗余,仅保留 10% 的视觉 token 就能保持 LLaVA-OneVision 99.1% 的性能,并能将 Qwen2.5-VL 的输入帧数提升 10 倍。

研究背景与动机

  1. 领域现状:视频大语言模型(VLLMs)在视频理解任务上表现优秀,但需要处理大量视觉 token(如 32帧 x 196 token/帧 = 6272 个 token),attention 计算复杂度与序列长度平方成正比,推理开销巨大。
  2. 现有痛点:现有加速方法(FastV, VisionZip, PruneVID)通常独立压缩空间冗余和时间冗余,忽视了时空关系的内在耦合。特别是 Temporal Token Merging(TTM)假设相邻帧中语义相似的 token 位于相同空间位置,但视频中目标会移动、变形、缩放。
  3. 核心矛盾:TTM 的固定空间对应关系在动态视频中不成立——最相关的视觉特征在相邻帧中可能不在同一空间位置,强行合并会引入噪声,扭曲视频表征。
  4. 本文要解决什么? 如何在不训练的前提下,联合建模空间和时间冗余进行高效压缩,同时适应视频的动态特性?
  5. 切入角度:观察到空间冗余和时间冗余是耦合的(某帧的冗余区域往往在多帧中持续存在),以及时间冗余不绑定于固定空间位置。
  6. 核心idea一句话:用层次化的时空冗余树替代固定空间位置的帧间 token 对应,匹配最相似而非同位置的 token 进行合并。

方法详解

整体框架

FlashVID 包含两个协同模块:(1) ADTS(Attention and Diversity-based Token Selection)先从每帧中选出最具代表性且多样的 token 子集,(2) TSTM(Tree-based Spatiotemporal Token Merging)在剩余 token 上构建跨帧的冗余树,聚合冗余 token。最终输出 = 选出的重要 token + 冗余树聚合后的 token。

关键设计

  1. 树状时空 Token 合并(TSTM):
  2. 做什么:跨帧构建冗余树,将语义相似的 token 聚合为一个
  3. 核心思路:对相邻帧计算 token 间余弦相似度矩阵,每个 token 连接到前一帧中最相似的 token(而非同位置的),相似度需超过阈值。由此渐进构建跨帧冗余树,树中所有 token 用均值池化聚合为一个。
  4. 设计动机:与 TTM 的固定空间对应不同,TSTM 允许 token 在空间中自由匹配,能捕捉目标运动导致的位置变化。实验显示,相同阈值下 TSTM 比 TTM 合并更多 token,且合并时的平均相似度更高。

  5. 注意力+多样性 Token 选择(ADTS):

  6. 做什么:从每帧中选出信息量最大且特征多样的 token 子集
  7. 核心思路:将 token 选择建模为 Max-Min Diversity Problem(MMDP),在余弦距离矩阵上求解,同时用两个校准项调节:(a) CLS 注意力权重——标记被 encoder 关注最多的 token,(b) 事件相关性——通过全局平均池化得到帧级嵌入,计算每个 token 与全视频事件的相关性。
  8. 设计动机:单纯求解 MMDP 只保证多样性,可能漏掉最重要的 token。加入注意力和事件相关性校准后,既保证多样性又保证信息量。

  9. 两阶段压缩流程:

  10. Stage 1: ADTS 选出每帧的重要 token 集合(保留不动)
  11. Stage 2: 剩余 token 进入 TSTM 构建冗余树并聚合
  12. 最终输出:聚合 token + 各帧保留 token 的并集

训练策略

无需训练,直接作为即插即用模块嵌入现有 VLLM。

实验关键数据

主实验

在 LLaVA-OneVision(32帧)上,5 个视频理解基准的平均表现:

方法 保留比例 VideoMME EgoSchema LongVideoBench MVBench 平均 相对准确率
Vanilla 100% 58.5 60.3 56.6 58.3 58.4 100.0%
FastV 10% 51.5 51.2 52.3 52.3 51.8 88.7%
VisionZip 10% 51.6 55.6 50.1 50.3 51.9 88.9%
FastVID 10% 55.5 56.1 55.5 57.7 56.2 96.2%
FlashVID 10% 57.2 59.5 56.0 57.7 57.9 99.1%

Qwen2.5-VL 帧数扩展实验

设置 帧数 VideoMME MLVU 相对提升
Vanilla 16帧 65.7 67.6 baseline
FlashVID 160帧 69.9 74.5 +8.6%

消融实验

配置 VideoMME EgoSchema 平均
Full FlashVID (ADTS+TSTM) 57.2 59.5 57.9
w/o TSTM (仅 ADTS) 56.2 58.0 56.7
w/o ADTS (仅 TSTM) 56.5 59.1 57.0
TTM 替代 TSTM 55.5 57.8 56.5

关键发现

  • TSTM 贡献最大,从仅 ADTS 到加入 TSTM 提升约 1.2 个点
  • 用 TTM 替代 TSTM 后性能明显下降,验证了动态空间对应的重要性
  • 10% token 保留率下 FlashVID 保持 99.1% 性能,远超 FastV(88.7%)和 VisionZip(88.9%)
  • 在 Qwen2.5-VL 上延长输入帧数到 10 倍,同等计算预算下性能提升 8.6%

亮点与洞察

  • 树状动态匹配:核心洞察简单但有效——相邻帧的相关 token 不在同一位置,用全局最相似匹配替代固定位置匹配。这个思路可迁移到任何涉及跨帧对应的任务。
  • 免训练即插即用:无需重新训练,理论上可适配任何 VLLM,工程价值高。
  • 帧数扩展应用:通过压缩 token 节省的计算量"交换"为更多输入帧,巧妙地将效率提升转化为能力提升。

局限性 / 可改进方向

  • 合并阈值是超参数,不同视频的最优阈值可能不同,自适应阈值策略值得探索
  • TSTM 对超长视频和高分辨率输入,构建相似度矩阵的开销不可忽略
  • 仅在 VLLM 的推理阶段压缩,未考虑训练时的效率提升
  • 对静态场景(冗余极高)和高动态场景(冗余极低)的压缩效果差异未充分分析

相关工作与启发

  • vs FastV (Chen et al., 2024): FastV 在 LLM 内部用 text-to-visual attention 剪枝,属于 Inner-LLM 方法;FlashVID 是混合策略
  • vs PruneVID (Huang et al., 2025): PruneVID 也做时空合并,但用固定空间位置对应的 TTM;FlashVID 用动态匹配
  • vs ToMe (Bolya et al., 2023): ToMe 是图像 token 合并的开创工作,FlashVID 将其扩展到视频时空域

评分

  • 新颖性: ⭐⭐⭐⭐ 树状时空合并思路简洁有效,但整体框架是已有组件的组合
  • 实验充分度: ⭐⭐⭐⭐⭐ 3个VLLM x 5个基准 x 多个压缩比例,非常全面
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,图示直观,算法描述完整
  • 价值: ⭐⭐⭐⭐⭐ 免训练、即插即用、性能损失极小,实用价值很高