LittleBit: Ultra Low-Bit Quantization via Latent Factorization¶
会议: NeurIPS 2025
arXiv: 2506.13771
代码: 有
领域: 模型压缩
关键词: 极低比特量化, 低秩分解, 二值化, 子1比特, LLM压缩
一句话总结¶
提出 LittleBit 框架,通过低秩潜空间矩阵分解 + 二值化 + 多尺度补偿机制,实现低至 0.1 BPW(每权重比特)的极端 LLM 压缩,将 Llama2-13B 压缩到不足 0.9GB,在子1比特领域大幅超越 STBLLM。
研究背景与动机¶
LLM 的部署受限于巨大的内存和计算需求。量化是主要的压缩手段: - PTQ 方法(GPTQ、AWQ)在 ~4 bit 精度表现良好,但低于 2 bit 性能急剧下降 - QAT 方法(OneBit、BinaryMoS)可以支撑到 1 bit 级别 - 但即使 1-bit 模型(如 70B 参数约 15.4GB)在极端资源受限设备上仍可能过大
核心问题:如何在 sub-1-bit(如 0.1 BPW)的极端压缩下保持模型性能?
两个关键观察支撑了本文方法: 1. LLM 权重矩阵通常具有显著的低秩结构,SVD 分解在高压缩比下比剪枝更稳定 2. 二值化导致严重信息丢失,需要多维度缩放因子(行、列、潜空间维度)来补偿
方法详解¶
整体框架¶
LittleBit 重新设计 Transformer 的线性层,形成 Primary + Residual 双通路结构: 1. 对权重矩阵 \(\mathbf{W}\) 做低秩分解 \(\mathbf{W} \approx \mathbf{UV}^\top\) 2. 将分解因子二值化 \(\mathbf{U}_{sign} = \text{sign}(\mathbf{U})\) 3. 引入多尺度补偿参数(行缩放 \(\mathbf{h}\)、列缩放 \(\mathbf{g}\)、潜维度缩放 \(\boldsymbol{\ell}\)) 4. 并行的 Residual 通路补偿主通路误差
关键设计¶
- 多尺度补偿机制:
主通路的有效权重为: $\(\hat{\mathbf{W}}_{pri} = \text{diag}(\mathbf{h}) \mathbf{U}_{sign} \text{diag}(\boldsymbol{\ell}) \mathbf{V}_{sign}^\top \text{diag}(\mathbf{g})\)$
除了常见的行/列缩放外,新增潜维度缩放 \(\boldsymbol{\ell} \in \mathbb{R}^r\),学习每个潜维度的相对重要性。前向计算通过顺序的元素乘和二值矩阵乘实现,避免存储完整有效权重。
- Dual-SVID 初始化:
为避免直接初始化导致 QAT 不稳定,设计了基于 SVD 的初始化策略: - 对 \(\mathbf{W}\) 做截断 SVD 得到 \(\mathbf{U}', \mathbf{V}'\) - 二值因子取符号:\(\mathbf{U}_{sign,0} = \text{sign}(\mathbf{U}')\) - 对幅度矩阵 \(|\mathbf{U}'|\) 和 \(|\mathbf{V}'|\) 分别做 rank-1 SVD,分解出行/列/潜维度缩放的初始值 - 这个"双 SVD"过程(Sign + Value Independent Decomposition)确保初始有效权重尽可能逼近原权重
- 残差补偿(Residual Compensation):
不增加总参数预算,而是将固定比特预算战略性地分配到两条低秩路径: $\(\hat{\mathbf{W}} = \hat{\mathbf{W}}_{pri} + \hat{\mathbf{W}}_{res}\)$
残差路径的参数用 Dual-SVID 初始化自主通路的近似误差 \(\mathbf{W} - \hat{\mathbf{W}}_{pri,0}\)。QAT 期间两条路径联合优化。作者可视化表明:即使在 0.3 BPW 下,双路径的初始近似质量已超过单路径 1.0 BPW。
损失函数 / 训练策略¶
采用 QAT + 知识蒸馏: $\(\mathcal{L}_{QAT} = \mathcal{L}_{out} + \lambda \mathcal{L}_{inter}\)$
- \(\mathcal{L}_{out}\):输出层 KL 散度
- \(\mathcal{L}_{inter}\):中间层 MSE(\(\lambda=10\))
- 使用 SmoothSign(前向 sign,反向 \(\tanh(100x)\))替代 STE,在超低比特下更稳定
- 对 GQA 模型的 K/V 投影层单独调整潜秩
实验关键数据¶
主实验(表格)¶
WikiText-2 困惑度(PPL,越低越好):
| 方法 | BPW | Llama2-7B | Llama2-13B | Llama3-8B | QwQ-32B |
|---|---|---|---|---|---|
| FullPrecision | 16 | 5.47 | 4.88 | 6.10 | 6.34 |
| OneBit (QAT) | 1.0 | 8.36 | 7.41 | 13.09 | 9.86 |
| BinaryMoS (QAT) | 1.0 | 7.74 | 6.95 | 10.83 | 8.99 |
| STBLLM (PTQ) | 0.55 | 30.67 | 27.05 | 241.95 | 18.32 |
| LittleBit | 0.55 | 10.47 | 9.24 | 18.47 | 13.57 |
| STBLLM (PTQ) | 0.30 | 1800 | 893.82 | 170000 | 512.01 |
| LittleBit | 0.30 | 12.00 | 10.48 | 20.34 | 16.48 |
| LittleBit | 0.10 | 15.92 | 15.09 | 26.11 | 35.26 |
LittleBit 在 0.55 BPW 时的 PPL 已超越 STBLLM 在 0.7 BPW 的表现。在 0.3 BPW 时 STBLLM 几乎崩溃(PPL > 500),而 LittleBit 仍保持可用。
消融实验(表格)¶
零样本推理性能(7 个 benchmark 平均准确率):
| 方法 | BPW | Llama2-7B | Llama2-13B | Llama3-8B |
|---|---|---|---|---|
| FullPrecision | 16 | 62.97% | 64.78% | 70.15% |
| STBLLM | 0.55 | 44.29% | 45.04% | 39.62% |
| LittleBit | 0.55 | 47.26% | 48.03% | - |
| STBLLM | 0.30 | 35.78% | 38.22% | 36.62% |
| LittleBit | 0.30 | 45.20% | 45.94% | - |
关键发现¶
- LittleBit 在 0.1 BPW 下实现约 31× 内存压缩,将 Llama2-13B 压缩到不足 0.9GB
- 在 sub-1-bit 区间,STBLLM 性能急剧恶化(0.3 BPW 以下基本不可用),而 LittleBit 保持稳定
- 残差补偿在低 BPW 下提升显著:双路径 0.3 BPW 的初始近似质量优于单路径 1.0 BPW
- SmoothSign 梯度估计器优于 STE,在极低比特训练中更稳定
- 对 GQA 模型中 K/V 投影层单独调整潜秩能有效维持性能
亮点与洞察¶
- 极端压缩:0.1 BPW 的压缩率前所未有,理论上可获得 11.6× 推理加速(相对 FP16)
- 分解 + 二值化的协同:低秩分解提供稳定的压缩基础,二值化进一步压缩,多尺度补偿弥补信息损失
- Dual-SVID 初始化:巧妙地将幅度信息分解为三个维度的缩放因子,为极低精度 QAT 提供良好起点
- 残差补偿不增加预算:同一比特预算下"两条低秩路径"优于"一条高秩路径",这是一个具有普遍意义的设计原则
- 覆盖模型规模广泛:从 1.3B 到 32B 参数,包括 Llama/OPT/Phi-4/QwQ 多个模型族
局限与展望¶
- 当前仅针对权重量化,未涉及激活值量化
- 0.1 BPW 下虽然 PPL 可接受,但零样本推理能力损失仍然较大
- QAT 训练成本较高(需要全精度教师模型 + 多 epoch 训练)
- 实际推理加速需要定制的二值矩阵乘 kernel 支持,目前主流硬件支持有限
- 对 attention 层和 FFN 层是否应采用不同策略未深入探讨
相关工作与启发¶
- 二值网络(BinaryConnect, BNN)的早期工作奠定了权重二值化的基础,但直接应用于 LLM 性能损失严重
- STBLLM(sub-1-bit PTQ + N:M 稀疏)是本文的主要对比对象,PTQ 路线在极低比特下的局限性被充分暴露
- OneBit、BinaryMoS 等 1-bit QAT 方法验证了多维度缩放的重要性,LittleBit 在此基础上增加了潜维度缩放
- LoRA 等低秩方法的成功侧面印证了 LLM 权重矩阵的低秩特性,为分解压缩提供了理论支撑
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次将量化推进到 0.1 BPW,低秩分解 + 二值化 + 多尺度补偿的统一框架设计精巧
- 实验充分度: ⭐⭐⭐⭐ — 覆盖多种模型族和规模,PPL + 零样本推理双重评估,但缺少实际推理延迟测试
- 写作质量: ⭐⭐⭐⭐ — 可视化(Figure 3 权重重建对比)非常直观,方法描述清晰
- 价值: ⭐⭐⭐⭐⭐ — 极端压缩的需求真实存在,在端侧部署场景有巨大潜力
相关论文¶
- [NeurIPS 2025] ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization
- [AAAI 2026] SpecQuant: Spectral Decomposition and Adaptive Truncation for Ultra-Low-Bit LLMs Quantization
- [NeurIPS 2025] Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression
- [NeurIPS 2025] FALQON: Accelerating LoRA Fine-tuning with Low-Bit Floating-Point Arithmetic
- [NeurIPS 2025] Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment