CommVQ: Commutative Vector Quantization for KV Cache Compression¶

会议: ICML 2025
arXiv: 2506.18879
代码: https://github.com/UMass-Embodied-AGI/CommVQ
领域: 机器人/模型压缩
关键词: KV缓存压缩, 向量量化, RoPE交换性, 长上下文推理, 1-bit量化

一句话总结¶

提出 CommVQ——通过可加向量量化压缩 KV cache，创新性地设计与 RoPE 可交换的码本并用 EM 算法训练，在 2-bit 下几乎无损、1-bit 下仍保持可用精度，使 LLaMA-3.1 8B 在单张 RTX 4090 上支持 128K 上下文。

领域现状：LLM 上下文长度不断增长（128K+），KV cache 成为 GPU 内存主要瓶颈——LLaMA-3.1 8B 在 128K 上下文、batch size 2 时 KV cache 需 88GB。

现有痛点：现有 KV cache 量化方法（如 KVQuant）逐标量独立量化，在 2-bit 以下精度严重下降；对 key 中 RoPE 位置编码的处理不够优化。

核心矛盾：逐标量量化在极低位宽下信息损失太大，需要向量级量化来保留更多信息。

本文目标：高效的向量级 KV cache 压缩。

切入角度：将每个 token 的 key/value 向量作为整体进行可加向量量化，减少量化误差。

核心 idea：设计与 RoPE 矩阵可交换的码本，使解码过程可高效嵌入注意力计算——中间结果可对码本预计算并复用。

可加向量量化:
- 功能：将 KV 向量量化为多个码本中码字的加权和
- 核心思路：\(v \approx c_{i_1} + c_{i_2} + \ldots + c_{i_M}\)，每个码字索引只需 \(\log_2 K\) bits
- 设计动机：向量级量化比逐标量量化在相同位宽下误差更小
RoPE 可交换码本:
- 功能：设计码本使得 \(\text{Decode}(\text{RoPE}(\text{Encode}(k))) = \text{RoPE}(\text{Decode}(\text{Encode}(k)))\)
- 核心思路：码本中的码字在 RoPE 旋转下不改变量化码本结构→可预计算 \(Q \cdot R \cdot C\) 并复用
- 设计动机：避免逐 token 解码+RoPE 应用的 \(O(N \cdot d)\) 开销，降为 \(O(K \cdot d)\)（\(K\) 为码本大小）
EM 算法码本训练:
- 功能：交替执行 E 步（分配码字）和 M 步（更新码本中心）
- 核心思路：在保持 RoPE 可交换约束下最小化量化重建误差
- 设计动机：经典的向量量化训练方法，有收敛保证

LLaMA-3.1 8B 长上下文基准：

方法	位宽	LongBench	InfiniteBench	内存节省
FP16	16-bit	42.1	22.8	1×
KVQuant	2-bit	38.5	18.2	8×
CommVQ	2-bit	41.8	22.1	8×
KVQuant	1-bit	28.3	11.5	16×
CommVQ	1-bit	36.2	17.8	16×