Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding¶

会议: CVPR 2025
arXiv: 2409.14485
代码: https://github.com/VectorSpaceLab/Video-XL
领域: 多模态VLM
关键词: 长视频理解、KV缓存压缩、视觉摘要token、课程学习、小时级视频

一句话总结¶

利用 LLM 内部的 KV 稀疏化能力实现长视频 token 压缩——引入视觉摘要 token（VST）将每段视频的视觉信息压缩到其 KV 中并卸载原始视觉 KV，配合动态压缩和课程学习，在单 A100 上处理 2048 帧，MLVU Dev 上超越 GPT-4o。

领域现状：长视频理解（小时级）是 VLM 的重要应用方向，但数千帧意味着数十万视觉 token，远超 LLM 的上下文窗口。

现有痛点：现有压缩方法在 LLM 之前做（如池化、Q-Former、C-Abstractor），在高压缩比（16×）时性能大幅下降——因为视觉信息的压缩和利用被分离了，压缩器不知道哪些信息对后续推理重要。

核心矛盾：长视频需要高压缩比（16× 甚至更高），但预压缩方法在高比率下丢失太多关键信息。

本文目标 利用 LLM 内部的注意力机制做语义感知的 KV 压缩，而非在 LLM 外部做盲目的 token 压缩。

切入角度：在视频间插入可学习的 Visual Summarization Token（VST），让 LLM 的注意力机制自然地将视觉信息压缩到 VST 的 KV 中，然后卸载原始视觉 token 的 KV，仅保留 VST KV。

核心 idea：将视觉 token 压缩从 LLM 外部移到 LLM 内部——用 VST 的 KV 缓存替代原始视觉 KV，利用 LLM 自身的注意力做语义感知压缩。

视频帧经视觉编码器提取 token → 每 \(n\) 帧间插入一组 VST token → 送入 LLM → LLM 处理时自注意力将关键视觉信息压缩到 VST 的 KV 中 → 卸载原始视觉 token KV，只保留 VST KV + 文本 KV → 后续推理用 VST KV 代表视觉上下文。

Visual Summarization Token（VST）:
- 功能：在 LLM 内部做视觉信息压缩的载体
- 核心思路：在每段视频帧序列后插入可学习的 VST token。LLM 的因果注意力使 VST 能看到它之前的所有视觉 token，因此其 KV 自然编码了前序视觉信息。处理完后卸载原始视觉 KV 仅保留 VST KV
- 设计动机：消融实验显示 LLM 内部压缩（VST）在 16× 压缩比下 MLVU 41.4，远超池化 33.7、Q-Former 35.1、C-Abstractor 37.1
动态压缩:
- 功能：根据视频内容的信息密度自适应调整压缩粒度
- 核心思路：用 CLIP 深度分数衡量相邻帧的语义变化幅度——变化大的区域（如场景切换）用更细的粒度（更多 VST），变化小的区域（如静态画面）用更粗的粒度
- 设计动机：均匀压缩会在信息密集区域丢失关键细节，在信息稀疏区域浪费容量
课程学习:
- 功能：渐进式引导模型学会越来越高的压缩比
- 核心思路：训练初期使用低压缩比（2×, 4×），逐步增加到高压缩比（8×, 12×, 16×）。避免模型一开始就面对极高压缩比导致学习崩溃
- 设计动机：直接用 16× 训练效果差（MLVU 37.2 vs 课程学习 41.4），渐进学习让模型逐步习得压缩技能

标准 next-token prediction 损失。训练数据混合图像、多图和长视频数据。VICO 合成数据集（从 CinePile 视频生成的视觉线索排序任务）增强长程理解。

模型	大小	MLVU Dev	VideoMME	VNBench	LongVidBench
GPT-4o	-	64.6	71.9	64.4	66.7
LongVA	7B	56.3	52.6	41.5	47.8
Video-XL	7B	64.9	55.5	61.6	50.7

压缩方法 (16×)	MLVU	VideoMME	MME	MMB
池化	33.7	41.0	1405	62.3
Q-Former	35.1	42.1	1410	61.9
C-Abstractor	37.1	46.3	1440	65.1
Video-XL (VST)	41.4	52.0	1510	70.9

7B 模型超越 GPT-4o：在 MLVU Dev 上 Video-XL 7B（64.9）超越 GPT-4o（64.6），证明内部压缩策略的有效性
16× 压缩下 VST >> 外部压缩：VST 比最强外部方法 C-Abstractor 高 4.3 个点（MLVU），因为 LLM 内部注意力知道哪些信息对推理重要
2048 帧单 A100：在 Needle-in-Haystack 测试中保持 95% 准确率，实现小时级视频理解