ApET: Approximation-Error Guided Token Compression for Efficient VLMs¶
会议: CVPR 2026
arXiv: 2602.19870
代码: https://github.com/MaQianKun0/ApET
领域: 多模态VLM / 模型加速 / Token压缩
关键词: 近似误差, 信息论, 线性近似, FlashAttention兼容, 无注意力token压缩
一句话总结¶
从信息论角度出发,通过线性近似重建每个visual token并用重建误差衡量其信息量(误差大=信息多=应保留),提出完全不依赖注意力权重的ApET框架,在LLaVA-1.5-7B上88.9%压缩保留95.2%精度,视频任务甚至达100.4%超基线,且完全兼容FlashAttention。
背景与动机¶
现有VLM token压缩方法(SparseVLM、PyramidDrop等)依赖注意力权重评估token重要性,存在两大问题:(1) 位置偏差——LLM的注意力对靠近文本的视觉token(序列后端)系统性给予更高权重,与实际信息量无关;(2) 与FlashAttention不兼容——FlashAttention不输出注意力矩阵,需要额外计算注意力权重反而增加开销。实验证实:在Qwen2.5-VL上,注意力引导的压缩方法反而比直接用FlashAttention的baseline更慢。
核心问题¶
能否完全抛弃注意力信号,用token的内在信息量(可重建性)作为压缩依据,同时保持与FlashAttention的完全兼容?
方法详解¶
整体框架¶
ApET可在视觉编码器输出和LLM中间层(如第16层)两个位置插入。每个位置执行三步:(1) Token选择:用FPS从所有visual token中采样\(M\)个basis token;(2) 近似误差计算:用basis token线性近似所有token \(v' \approx \sum \alpha_i b_i\),计算重建误差\(\xi = \|v - v'\|_2\);(3) Token合并:按误差排序保留高误差token,低误差token与最近似的已保留token合并(average merging)。
关键设计¶
-
信息论基础:从互信息最大化出发,\(\max_S I(V;S) = H(V) - H(V|S)\)。由于\(H(V)\)固定,目标是最小化\(H(V|S)\)。Shannon定理提供下界:\(\frac{1}{2\pi e}\exp(\frac{2H(V|S)}{d}) \leq \xi\),即最小化重建MSE等价于最小化条件熵。因此重建误差大的token包含更多无法被子集表达的独特信息,应该被保留。
-
线性近似替代重建模型:不需要训练额外的重建网络,直接用\(V \approx BA\)求解线性系统(\(B\)是basis token集,\(A\)是系数矩阵)。计算开销极低:\(M=10\)个basis token即可,\(M \ll N\)(576)。FPS采样确保basis token的多样性,DPC也可用但计算量更大。
-
Token合并策略:低误差token不是直接丢弃,而是与最相似的高误差token合并(average merging),减少信息损失。basis token自动保留在保留集中,确保近似基底不丢失。
损失函数 / 训练策略¶
完全training-free。在视觉编码器输出和LLM第16层(LLaVA系列)或第14层(Qwen2.5-VL)处进行两次压缩。\(M=10\)作为默认值(对\(M\)不敏感,5-20范围内性能变化<2%)。代码开源。
实验关键数据¶
LLaVA-1.5-7B(9个基准平均):
| 保留token | ApET | VisionZip | PDrop | SparseVLM | FastV |
|---|---|---|---|---|---|
| 192 (33%) | 98.0% | 97.8% | 97.2% | 96.1% | 90.4% |
| 128 (22%) | 97.1% | 96.2% | 96.2% | 93.7% | 85.4% |
| 64 (11%) | 95.2% | 92.7% | 86.6% | 87.2% | 76.7% |
Video-LLaVA(256 tokens, 87.5%↓):ApET 100.7%反超基线 vs VisionZip 94.4% vs FastV 83.9%
Qwen2.5-VL-7B(20%保留率):ApET 93.3% vs PDrop 90.3% vs SparseVLM 89.8%
效率(LLaVA-1.5-7B, 11.1%保留率):总推理1.46×加速,prefill 1.38×加速
消融实验要点¶
- FPS最优采样策略:FPS ≈ DPC >> Random(Random也能工作说明近似误差本身有效)
- \(M\)对结果不敏感:\(M \in [5,20]\)范围内POPE变化<2%,\(M=10\)最优
- 关键优势在极端压缩:64 tokens(11%)时ApET vs VisionZip差距2.5%,vs PDrop差距8.6%
- 视频优势突出:因消除了注意力的位置偏差(长视频序列中位置偏差更严重)
- 在Qwen2.5-VL上其他方法变慢:注意力方法需重新计算权重比baseline更慢,而ApET 1.19×加速
亮点¶
- 信息论视角独特——从Shannon条件熵→重建MSE→近似误差的推导链清晰优雅
- 完全不依赖注意力=完全兼容FlashAttention=在现代VLM上真正实用
- 极致简洁:仅需10个basis token做线性近似+L2误差+FPS采样,整个方法几行代码
- 视频理解超基线(100.7%)进一步验证了"冗余token有害"的假设——去噪效果
- 与V2Drop(变化量视角)、GACD(梯度视角)形成互补的"token重要性评估三角"
局限性 / 可改进方向¶
- 线性近似可能不足以捕捉非线性特征关系——更强的近似方法可能更准确
- FPS采样引入\(O(NM)\)额外计算(不过\(M\)很小所以实际开销极低)
- 压缩后token合并用简单average——weighted average或attention-based merge可能更好
- 未与V2Drop等基于变化量的方法直接对比——两种信号(近似误差 vs 层间变化量)的互补性值得探索
- 未在训练中使用(仅推理时)——类似DUET-VLM的训练+推理统一可能进一步提升
与相关工作的对比¶
- vs V2Drop (CVPR'26):V2Drop用层间变化量(也不需要注意力,也兼容FA),ApET用近似误差。两者思路类似但信号来源不同——V2Drop看"token在层间变了多少",ApET看"token能被其他token代表多少"
- vs VisionZip (CVPR'25):VisionZip用CLS注意力选dominant token+全局合并,ApET用近似误差+FPS+局部合并,在64 tokens时95.2% vs 92.7%
- vs DUET-VLM (CVPR'26):DUET-VLM双阶段(视觉侧聚类+语言侧注意力剪枝),ApET单一原则(近似误差)但在两处应用。DUET-VLM可训练,ApET纯推理
- vs GACD (CVPR'26):GACD用梯度做token贡献估计缓解幻觉,ApET用近似误差做效率压缩——侧重点不同但都避免了直接注意力依赖
启发与关联¶
- ApET的"可被其他token线性重建=冗余"与V2Drop的"层间变化小=不重要"可能可以统一成一个框架:近似误差度量token的内在信息量(静态),变化量度量token被网络利用程度(动态),两者乘积可能是最佳的token重要性信号
- 线性近似的idea可以推广到KV cache压缩——用少量basis KV线性近似其余KV,按近似误差选择保留哪些KV
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 信息论+线性近似误差的框架完全原创,与所有注意力方法正交
- 实验充分度: ⭐⭐⭐⭐⭐ 4个模型(LLaVA/LLaVA-NeXT/Video-LLaVA/Qwen2.5-VL)、9+基准、效率分析、多种消融
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰,motivation→theory→method→experiment逻辑链完美
- 价值: ⭐⭐⭐⭐⭐ 信息论新视角+FlashAttention兼容+开源=对VLM压缩领域影响大