Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach¶

会议: CVPR2026 arXiv: 2511.16786 代码: 待确认领域: 多模态VLM 关键词: KV Cache压缩, 频域分析, 离散余弦变换, Outlier KV, 多模态推理加速, FlashAttention兼容

一句话总结¶

提出FlashCache——首个不依赖注意力分数、无需训练的多模态KV Cache压缩框架，通过频域低通滤波识别Outlier KV并动态分配各层预算，在保持性能的前提下实现80%内存节省和1.69×解码加速。

多模态长上下文推理瓶颈：MLLM在多图/高分/视频场景下视觉token爆炸式增长，KV Cache随之线性膨胀，GPU显存开销巨大且解码严重变慢。
现有方法依赖注意力分数：LOOK-M、MEDA等方法均基于attention score筛选KV对，但FlashAttention等高效注意力内核不显式输出完整注意力分数，重新计算带来额外开销。
忽略Value矩阵贡献：注意力分数仅由Query-Key点积决定，直接用其压缩KV Cache忽略了Value向量对注意力输出的信息贡献。
与高效注意力核不兼容：基于注意力分数的方法无法原生适配FlashAttention，限制了实际部署效率。
均匀压缩忽略层间差异：不同Transformer层的KV矩阵信息冗余度不同，统一压缩比会造成次优结果。
频域视角的启发：图像处理中频域分析广泛使用，模型量化中outlier移除会导致性能骤降——作者将这两个直觉迁移到KV Cache压缩，发现KV矩阵频域能量集中于低频，偏离主趋势的KV对更关键。

在prefill阶段完成后对多模态KV Cache执行一次性压缩，包含两个核心模块：Outlier KV识别模块和动态预算分配模块。

频域变换：对每层的Key/Value矩阵 \(K^l, V^l\) 施加离散余弦变换（DCT），得到频域表示 \(C_k^l[m], C_v^l[m]\)。
低通滤波：设截止因子 \(\gamma\)（最优取0.1~0.2），保留频率 \(m \leq \omega = \gamma \cdot N\) 的低频分量，高频置零。
逆变换获取Base KV：对滤波后的频域表示做IDCT，得到平滑的Base KV \(K_{base}^l, V_{base}^l\)，表征KV矩阵的主趋势。
偏差度量：计算每个KV对与Base KV的均方误差 \(Dev[x] = \text{MSE}(K^l[x], K_{base}^l[x]) + \text{MSE}(V^l[x], V_{base}^l[x])\)。
Outlier KV保留：按偏差从大到小排序，优先保留偏差大的KV对——这些"Outlier KV"更可能编码关键检索特征。

FlashCache为无训练（training-free）方法，无需额外损失函数或微调，直接在推理时一次性压缩。

方法	Task T	Task S	NH	IR
Full Cache	55.59	69.17	27.35	14.17
StreamingLLM	55.59	67.51	9.69	14.00
SnapKV	55.59	68.27	13.59	15.33
LOOK-M	55.55	67.50	11.88	11.83
FlashCache	55.59	68.85	26.72	15.50

Qwen2.5-VL-7B上，FlashCache在Needle-in-a-Haystack任务以26.72大幅领先第二名SnapKV的13.59（+13.13），接近Full Cache的27.35。

基准	Full Cache	最优竞争方法	FlashCache (ρ=0.1)
V*	80.23	79.56 (SnapKV)	80.23
HR-Bench	70.75	71.12 (SnapKV)	71.25
FAVOR-Bench (all)	40.91	35.78 (H2O)	36.49

在V上FlashCache以ρ=0.1与Full Cache完全持平*，HR-Bench甚至略超Full Cache。

消融项	INIAH	GPR1200	CLEVR-Change
w/o DBA	24.69	14.67	35.85
w/ DBA	29.69	15.50	41.04

动态预算分配模块贡献显著，CLEVR-Change提升+5.19。低通截止因子 \(\gamma\) 最优取0.1~0.2，过大则Base KV无法有效提取主趋势。

方法	依赖注意力分数	兼容FlashAttention	训练需求	动态层预算
StreamingLLM	✓	✗	✗	✗
H2O	✓	✗	✗	✗
SnapKV	✓	✗	✗	✗
LOOK-M	✓	✗	✗	✗
MEDA	✓	✗	✗	✓
FlashCache	✗	✓	✗	✓

FlashCache是唯一不依赖注意力分数且天然兼容FlashAttention的方法，通过频域分析绕开了对完整注意力矩阵的依赖。