跳转至

LittleBit: Ultra Low-Bit Quantization via Latent Factorization

会议: NeurIPS 2025
arXiv: 2506.13771
代码:
领域: 模型压缩
关键词: 极低比特量化, 低秩分解, 二值化, 子1比特, LLM压缩

一句话总结

提出 LittleBit 框架,通过低秩潜空间矩阵分解 + 二值化 + 多尺度补偿机制,实现低至 0.1 BPW(每权重比特)的极端 LLM 压缩,将 Llama2-13B 压缩到不足 0.9GB,在子1比特领域大幅超越 STBLLM。

研究背景与动机

LLM 的部署受限于巨大的内存和计算需求。量化是主要的压缩手段: - PTQ 方法(GPTQ、AWQ)在 ~4 bit 精度表现良好,但低于 2 bit 性能急剧下降 - QAT 方法(OneBit、BinaryMoS)可以支撑到 1 bit 级别 - 但即使 1-bit 模型(如 70B 参数约 15.4GB)在极端资源受限设备上仍可能过大

核心问题:如何在 sub-1-bit(如 0.1 BPW)的极端压缩下保持模型性能?

两个关键观察支撑了本文方法: 1. LLM 权重矩阵通常具有显著的低秩结构,SVD 分解在高压缩比下比剪枝更稳定 2. 二值化导致严重信息丢失,需要多维度缩放因子(行、列、潜空间维度)来补偿

方法详解

整体框架

LittleBit 重新设计 Transformer 的线性层,形成 Primary + Residual 双通路结构: 1. 对权重矩阵 \(\mathbf{W}\) 做低秩分解 \(\mathbf{W} \approx \mathbf{UV}^\top\) 2. 将分解因子二值化 \(\mathbf{U}_{sign} = \text{sign}(\mathbf{U})\) 3. 引入多尺度补偿参数(行缩放 \(\mathbf{h}\)、列缩放 \(\mathbf{g}\)、潜维度缩放 \(\boldsymbol{\ell}\)) 4. 并行的 Residual 通路补偿主通路误差

关键设计

  1. 多尺度补偿机制

主通路的有效权重为: $\(\hat{\mathbf{W}}_{pri} = \text{diag}(\mathbf{h}) \mathbf{U}_{sign} \text{diag}(\boldsymbol{\ell}) \mathbf{V}_{sign}^\top \text{diag}(\mathbf{g})\)$

除了常见的行/列缩放外,新增潜维度缩放 \(\boldsymbol{\ell} \in \mathbb{R}^r\),学习每个潜维度的相对重要性。前向计算通过顺序的元素乘和二值矩阵乘实现,避免存储完整有效权重。

  1. Dual-SVID 初始化

为避免直接初始化导致 QAT 不稳定,设计了基于 SVD 的初始化策略: - 对 \(\mathbf{W}\) 做截断 SVD 得到 \(\mathbf{U}', \mathbf{V}'\) - 二值因子取符号:\(\mathbf{U}_{sign,0} = \text{sign}(\mathbf{U}')\) - 对幅度矩阵 \(|\mathbf{U}'|\)\(|\mathbf{V}'|\) 分别做 rank-1 SVD,分解出行/列/潜维度缩放的初始值 - 这个"双 SVD"过程(Sign + Value Independent Decomposition)确保初始有效权重尽可能逼近原权重

  1. 残差补偿(Residual Compensation)

不增加总参数预算,而是将固定比特预算战略性地分配到两条低秩路径: $\(\hat{\mathbf{W}} = \hat{\mathbf{W}}_{pri} + \hat{\mathbf{W}}_{res}\)$

残差路径的参数用 Dual-SVID 初始化自主通路的近似误差 \(\mathbf{W} - \hat{\mathbf{W}}_{pri,0}\)。QAT 期间两条路径联合优化。作者可视化表明:即使在 0.3 BPW 下,双路径的初始近似质量已超过单路径 1.0 BPW。

损失函数 / 训练策略

采用 QAT + 知识蒸馏: $\(\mathcal{L}_{QAT} = \mathcal{L}_{out} + \lambda \mathcal{L}_{inter}\)$

  • \(\mathcal{L}_{out}\):输出层 KL 散度
  • \(\mathcal{L}_{inter}\):中间层 MSE(\(\lambda=10\)
  • 使用 SmoothSign(前向 sign,反向 \(\tanh(100x)\))替代 STE,在超低比特下更稳定
  • 对 GQA 模型的 K/V 投影层单独调整潜秩

实验关键数据

主实验(表格)

WikiText-2 困惑度(PPL,越低越好):

方法 BPW Llama2-7B Llama2-13B Llama3-8B QwQ-32B
FullPrecision 16 5.47 4.88 6.10 6.34
OneBit (QAT) 1.0 8.36 7.41 13.09 9.86
BinaryMoS (QAT) 1.0 7.74 6.95 10.83 8.99
STBLLM (PTQ) 0.55 30.67 27.05 241.95 18.32
LittleBit 0.55 10.47 9.24 18.47 13.57
STBLLM (PTQ) 0.30 1800 893.82 170000 512.01
LittleBit 0.30 12.00 10.48 20.34 16.48
LittleBit 0.10 15.92 15.09 26.11 35.26

LittleBit 在 0.55 BPW 时的 PPL 已超越 STBLLM 在 0.7 BPW 的表现。在 0.3 BPW 时 STBLLM 几乎崩溃(PPL > 500),而 LittleBit 仍保持可用。

消融实验(表格)

零样本推理性能(7 个 benchmark 平均准确率):

方法 BPW Llama2-7B Llama2-13B Llama3-8B
FullPrecision 16 62.97% 64.78% 70.15%
STBLLM 0.55 44.29% 45.04% 39.62%
LittleBit 0.55 47.26% 48.03% -
STBLLM 0.30 35.78% 38.22% 36.62%
LittleBit 0.30 45.20% 45.94% -

关键发现

  • LittleBit 在 0.1 BPW 下实现约 31× 内存压缩,将 Llama2-13B 压缩到不足 0.9GB
  • 在 sub-1-bit 区间,STBLLM 性能急剧恶化(0.3 BPW 以下基本不可用),而 LittleBit 保持稳定
  • 残差补偿在低 BPW 下提升显著:双路径 0.3 BPW 的初始近似质量优于单路径 1.0 BPW
  • SmoothSign 梯度估计器优于 STE,在极低比特训练中更稳定
  • 对 GQA 模型中 K/V 投影层单独调整潜秩能有效维持性能

亮点与洞察

  1. 极端压缩:0.1 BPW 的压缩率前所未有,理论上可获得 11.6× 推理加速(相对 FP16)
  2. 分解 + 二值化的协同:低秩分解提供稳定的压缩基础,二值化进一步压缩,多尺度补偿弥补信息损失
  3. Dual-SVID 初始化:巧妙地将幅度信息分解为三个维度的缩放因子,为极低精度 QAT 提供良好起点
  4. 残差补偿不增加预算:同一比特预算下"两条低秩路径"优于"一条高秩路径",这是一个具有普遍意义的设计原则
  5. 覆盖模型规模广泛:从 1.3B 到 32B 参数,包括 Llama/OPT/Phi-4/QwQ 多个模型族

局限与展望

  • 当前仅针对权重量化,未涉及激活值量化
  • 0.1 BPW 下虽然 PPL 可接受,但零样本推理能力损失仍然较大
  • QAT 训练成本较高(需要全精度教师模型 + 多 epoch 训练)
  • 实际推理加速需要定制的二值矩阵乘 kernel 支持,目前主流硬件支持有限
  • 对 attention 层和 FFN 层是否应采用不同策略未深入探讨

相关工作与启发

  • 二值网络(BinaryConnect, BNN)的早期工作奠定了权重二值化的基础,但直接应用于 LLM 性能损失严重
  • STBLLM(sub-1-bit PTQ + N:M 稀疏)是本文的主要对比对象,PTQ 路线在极低比特下的局限性被充分暴露
  • OneBit、BinaryMoS 等 1-bit QAT 方法验证了多维度缩放的重要性,LittleBit 在此基础上增加了潜维度缩放
  • LoRA 等低秩方法的成功侧面印证了 LLM 权重矩阵的低秩特性,为分解压缩提供了理论支撑

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次将量化推进到 0.1 BPW,低秩分解 + 二值化 + 多尺度补偿的统一框架设计精巧
  • 实验充分度: ⭐⭐⭐⭐ — 覆盖多种模型族和规模,PPL + 零样本推理双重评估,但缺少实际推理延迟测试
  • 写作质量: ⭐⭐⭐⭐ — 可视化(Figure 3 权重重建对比)非常直观,方法描述清晰
  • 价值: ⭐⭐⭐⭐⭐ — 极端压缩的需求真实存在,在端侧部署场景有巨大潜力

相关论文