UniComp: Rethinking Video Compression Through Informational Uniqueness¶

会议: CVPR 2026
arXiv: 2512.03575
代码: TimeMarker-LLM/UniComp
领域: 模型压缩
关键词: 视觉token压缩, 信息唯一性, 视频理解, MLLM效率, 即插即用

一句话总结¶

提出基于信息唯一性（而非注意力）的视频 token 压缩框架 UniComp，通过帧组融合、token 分配和空间动态压缩三个模块在时序-空间-全局维度上最大化保留唯一信息，在仅保留 10% token 时仍能超越未压缩基线性能。

研究背景与动机¶

领域现状: 多模态大模型处理视频时面临巨大计算瓶颈——32 帧视频可能产生数千个视觉 token。现有压缩方法如 VisionZip、HoliTom 主要基于注意力分数进行重要性评估和 token 选择。

现有痛点: 基于注意力的方法存在三个问题：(1) 显著性偏向导致选中的 token 之间高度冗余；(2) 倾向忽略细粒度细节；(3) 激进压缩下信息损失严重。此外 FastVid、HoliTom 需要调 5+ 超参数，DyCoke 等需修改 LLM 内部注意力层，不易跨架构迁移。

核心矛盾: 注意力高不等于信息唯一，高注意力 token 之间可能高度相似，保留它们并不能最大化信息保真度。压缩的本质应该是保留不可替代的信息，而非最显著的信息。

本文目标 在有限计算预算下，如何选择最能代表整体视觉信息的 token 子集，使得被丢弃 token 的信息可从保留 token 中重建。

切入角度: 从信息论出发，将压缩建模为最小化条件熵 \(H(\mathcal{X}|\mathcal{S})\)，推导出重建误差上界与 token 唯一性的理论联系。

核心 idea: 用余弦距离度量的"信息唯一性"替代注意力分数作为 token 重要性指标，配合贪心选择加邻域融合实现信息最优压缩。

方法详解¶

整体框架¶

UniComp 由三个级联模块组成：(1) Frame Group Fusion (FGF) 在时序维度自适应合并语义相似帧；(2) Token Allocation (TA) 根据帧级唯一性全局分配 token 预算；(3) Spatial Dynamic Compression (SDC) 在每帧内基于 token 唯一性贪心选择并融合 token。输入为 ViT 编码器输出的视觉 token，输出为压缩后的 token 序列直接送入 LLM。

关键设计¶

Frame Group Fusion (FGF):
- 功能：自适应合并时序上冗余的帧
- 核心思路：对每帧 average pooling 得到全局特征，顺序扫描帧序列，当前帧与组首帧唯一性 \(u(f_t, f_r) < U_f\) 则归入同组，否则开新组。每组 mean pooling 融合为代表性特征
- 设计动机：静态场景连续帧大量合并，语义突变处细粒度保留，自适应时序压缩
Token Allocation (TA):
- 功能：根据帧级唯一性动态分配每帧 token 预算
- 核心思路：计算融合帧唯一性 \(U_t = 1 - \frac{1}{K_f}\sum_s \cos(f_t, f_s)\)，均值归一化后乘 \(\sqrt{K_f}\) 放大差异，softmax 得分配比例 \(K_t = \lfloor \frac{e^{U_t}}{\sum e^{U_s}} \cdot \text{TOKEN}_{max} \rfloor\)
- 设计动机：唯一性高的帧对视频理解更关键，应获得更多 token
Spatial Dynamic Compression (SDC):
- 功能：帧内基于 token 唯一性贪心选择最具代表性 token
- 核心思路：算帧内 token 唯一性矩阵，按降序贪心选择：选最唯一 token，标记唯一性差距 \(< U_c\) 的相近 token 为冗余，通过邻域融合合并。理论上等价于最小化重建误差上界 \(\mathcal{E}(\mathcal{S}) \leq 2\sum_j \min_{i \in \mathcal{S}} u_{ij}\)
- 设计动机：融合而非丢弃冗余 token，保留聚合信息

损失函数 / 训练策略¶

UniComp 是无需训练的即插即用方法。仅需 2 个超参数：帧组融合阈值 \(U_f\) 和空间压缩阈值 \(U_c\)，默认值可跨不同 ViT 和 LLM 迁移。使用 ViT 最后一层注意力的 Key 特征计算唯一性。

实验关键数据¶

主实验（32帧输入，LLaVA-OneVision-7B）¶

方法	保留比例	LongVideoBench	EgoSchema	MLVU	VideoMME	平均	相对基线
Vanilla	100%	56.3	60.4	64.7	58.4	59.95	100%
VisionZip	25%	56.5	60.3	64.8	58.2	59.95	100%
HoliTom	25%	56.7	61.2	64.7	58.6	60.30	100.6%
UniComp	25%	57.6	61.6	65.0	58.9	60.78	101.4%
VisionZip	10%	49.3	58.0	59.7	53.4	55.10	91.9%

消融实验¶

配置	LongVideoBench	VideoMME	说明
Full UniComp	57.6	58.9	完整模型
w/o FGF	56.8	58.2	去帧组融合掉 0.8
w/o TA	57.0	58.5	去动态分配掉 0.6
w/o SDC fusion	56.5	57.8	去邻域融合掉 1.1

关键发现¶

UniComp 在 25% 保留率下超越未压缩基线（101.4%），压缩反而去除了干扰 LLM 的冗余信息
10% 保留率下仍保持约 100% 基线性能，VisionZip 降至 91.9%
即插即用，在 LLaVA-OV、LLaVA-Video、Eagle2.5 三个架构上都有效

亮点与洞察¶

信息唯一性 vs 注意力：视角转换非常精彩——注意力高的 token 可能彼此高度相似，唯一性高的 token 保证信息多样性覆盖。可视化清晰展示了两者差异
理论-实践闭环：从条件熵最小化推导出重建误差与唯一性上界联系，据此设计贪心算法，理论驱动设计优雅
压缩反超基线：暗示 LLM 处理过多视觉 token 时受冗余信息干扰，适度筛选反而有益

局限与展望¶

唯一性基于余弦距离，对方向相近但语义不同的 token 可能误判
帧组融合是顺序扫描，对闪回或非线性叙事可能处理不当
仅 2 个超参数在极端场景可能需微调

评分¶

新颖性: ⭐⭐⭐⭐⭐ 信息唯一性视角是全新理论贡献
实验充分度: ⭐⭐⭐⭐ 多模型多比例多基准，消融详细
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，动机引人入胜
价值: ⭐⭐⭐⭐⭐ 即插即用加压缩超基线，实用学术价值兼具