Boosting Entropy with Bell Box Quantization¶
会议: ICLR 2026
arXiv: 2603.01599
代码: https://github.com/1733116199/bbq
领域: 模型压缩 / 量化
关键词: 量化感知预训练, 信息论最优量化, 计算高效数据类型, 熵最大化, 低精度推理
一句话总结¶
提出 Bell Box Quantization (BBQ),首个同时满足"信息论最优"(ITO) 和"计算高效"(compute-efficient) 的量化方法,核心洞察是学习的域无关性——量化器输出域不必与输入域相同,由此在输入域做 ITO 量化以最大化熵,在输出域映射到硬件可加速的数据类型,在 1-4 bit QAPT 场景下全面超越 QuEST 和 LSQ。
研究背景与动机¶
- 领域现状:量化是将 DNN 部署到边缘设备的关键技术。量化感知预训练 (QAPT) 从零开始以低精度训练模型,可避免先全精度预训练再做 PTQ/QAFT 的额外开销,但低精度模型的信息容量有限,难以拟合大规模数据。
- 现有痛点:现有 QAPT 方法(如 QuEST、LSQ)使用计算高效的数据类型(INT4等),但这些数据类型 不满足信息论最优 (ITO)——量化后各量化值的使用频率不均匀,从而浪费了有限的学习容量。另一方面,现有 ITO 方法(如 NF4/NormalFloat)虽能最大化熵,但需要反量化到全精度再计算,在能量受限的边缘设备上不可用。
- 核心矛盾:ITO 和计算高效之间存在 trade-off——ITO 量化值不在硬件支持的数据类型中,无法利用低精度矩阵乘法加速;计算高效的整数/浮点类型对高斯分布权重不是 ITO 的。
- 本文要解决什么:能否在不牺牲计算效率的前提下实现 ITO 量化,让模型最大化利用有限的学习容量?
- 切入角度:学习是域无关的 (domain-agnostic)——DNN 可以从旋转图像、频域数据、latent embedding 中学习,只要信息被保留,把数据投影到不同域不影响学习。
- 核心 idea 一句话:量化器在输入域做 ITO 量化保留最多信息,输出到不同的计算高效域,使低精度矩阵乘法可直接使用。
方法详解¶
整体框架¶
BBQ 量化分三步:(a) Hadamard 变换 + RMS 归一化 → 将任意分布权重/激活转换为标准正态 \(N(0,1)\);(b) 概率积分变换 (PIT) → 通过高斯 CDF \(\Phi\) 将正态分布映射为均匀分布 \(U(0,1)\);(c) 均匀量化 → 对均匀数据做均匀量化即为 ITO 量化。反量化公式为简单线性缩放 \(\hat{x} = \frac{\gamma}{2^{b-1}} q\),可利用低精度矩阵乘法加速。
量化公式:\(q = \lfloor 2^b \Phi(v) \rfloor - 2^{b-1} - z\),其中 \(v = \text{HT}(x) / \sigma\)
反量化公式:\(\hat{x} = \frac{\gamma}{2^{b-1}} q\)
关键设计¶
- Hadamard 变换 + RMS 归一化 (Step 1a):
- 做什么:将权重/激活从未知分布转换为标准正态分布
- 核心思路:先对输入 \(x\) 沿通道维度每 \(H\) 个元素做 Hadamard 变换(已知能使数据趋向高斯),再除以 RMS \(\sigma\) 得到单位方差的 \(v \sim N(0,1)\)
-
设计动机:ITO 量化需要假设已知分布,通过 HT 将未知分布"高斯化"使得后续的 PIT 可以精确执行
-
概率积分变换 PIT (Step 1b):
- 做什么:将正态数据映射为均匀分布
- 核心思路:对 \(v \sim N(0,1)\) 施加标准高斯 CDF \(\Phi\),得到 \(\Phi(v) \sim U(0,1)\)。\(\Phi\) 取代了 QuEST/LSQ 中的 clip 函数
-
设计动机:clip 函数是分段线性的、不可微的,且对高斯数据不能均匀分配量化 bins;而 \(\Phi\) 无限可微、更平滑,且能使所有量化值等概率出现(ITO)。推理时可预计算 \(\Phi^{-1}(i/2^b)\) 作为量化边界,用 \(b\) 次浮点比较的二分搜索替代,开销极小
-
均匀量化 + 域变换 (Step 1c + Dequant):
- 做什么:将 ITO 量化值映射到计算高效数据类型(INT4/MX FP4)
- 核心思路:对 \(U(0,1)\) 做均匀量化得到 \(\lfloor 2^b \Phi(v) \rfloor\),减去偏移得到符号整数 \(q\),可直接存为 INT4 或 MX FP4。反量化为简单线性 \(\hat{x} = \frac{\gamma}{2^{b-1}} q\),因此矩阵乘法 \(\hat{X} \hat{W}\) 可在低精度域完成后再线性缩放
-
设计动机:这是域变换的核心——输入域做了信息最优的量化,输出域却是硬件友好的整数/浮点
-
可学习缩放因子 \(\gamma\) 与初始化:
- 做什么:控制反量化输出 \(\hat{x}\) 的幅度
- 核心思路:将缩放因子解耦为 \(s = \gamma / 2^{b-1}\),\(\gamma\) 不依赖精度 \(b\),初始化为 \(\zeta^* \sigma_0\)(\(\zeta^*\) 通过最小化量化误差的期望求得),使首次迭代时 \(\hat{x}\) 的幅度与 \(x\) 一致,防止梯度爆炸/消失
-
设计动机:朴素替换 clip 为 \(\Phi\) 若不合理初始化 \(\gamma\) 会导致训练发散(消融实验中 perplexity 从 35.58 飙到 138.3)
-
BBQ-Fast 变体:
- 推理时用指数移动平均 \(E_{1/\sigma}\) 替代实时计算的 \(1/\sigma\),避免激活 RMS 的跨线程通讯开销,实现完全相同的 perplexity 但更快的推理速度
训练策略¶
- 对 floor 操作使用 Straight-Through Estimator (STE),其余操作均可微分
- 对 \(\gamma\) 施加梯度缩放(除以 \(\sqrt{d}\)),不对 \(\gamma\) 使用 weight decay
- 权重使用 channel-wise 量化,激活使用 per-tensor 量化
实验关键数据¶
主实验¶
在 LLaMA 架构上进行 QAPT,使用 C4 数据集,对比 BBQ、QuEST、LSQ:
| 模型参数 | 训练Token | 精度 (bit) | BBQ 熵/PPL | QuEST 熵/PPL | LSQ 熵/PPL |
|---|---|---|---|---|---|
| 95M | 3B | 4-bit | 3.93 / 25.51 | 3.61 / 26.37 | 3.59 / 27.46 |
| 95M | 3B | 3-bit | 2.96 / 26.55 | 2.78 / 29.04 | 2.74 / 30.27 |
| 95M | 3B | 2-bit | 1.97 / 31.34 | 1.92 / 35.58 | 1.69 / 36.58 |
| 95M | 3B | 1-bit | 1.00 / 49.22 | 1.00 / 67.78 | - |
| 200M | 10B | 4-bit | 3.93 / 18.79 | 3.61 / 19.06 | 2.73 / 1778 |
| 200M | 10B | 2-bit | 1.98 / 23.08 | 1.93 / 25.46 | 1.63 / 78.19 |
| 300M | 20B | 4-bit | 3.93 / 16.10 | 3.61 / 16.26 | - |
| 300M | 20B | 2-bit | 1.98 / 19.75 | 1.93 / 21.53 | - |
BBQ 在所有精度下一致取得更高熵和更低 perplexity。精度越低,BBQ 优势越大(2-bit 降 4+ PPL,1-bit 降 18+ PPL)。LSQ 在大模型上训练发散。
消融实验¶
在 2-bit LLaMA-95M (3B tokens) 上的消融:
| 配置 | PPL | 熵 | 说明 |
|---|---|---|---|
| BBQ 完整 | 31.34 | 1.97 | 最优 |
| 去 HT | 35.79 | 1.98 | PPL 涨 4.45 |
| 去 RMS | 35.93 | 1.98 | PPL 涨 4.59 |
| QuEST (无 PIT) | 35.58 | 1.92 | baseline |
| 加 PIT 无 \(\gamma\) 初始化 | 138.3 | 1.92 | 发散! |
| 加 PIT + \(\gamma\) 初始化 | 31.46 | 1.98 | PPL 降 4.12 |
| 加可学习 \(\gamma\) | 31.34 | 1.97 | 再降 0.12 |
关键发现¶
- PIT (\(\Phi\)) 替代 clip 是最关键的改进,但必须配合合理的 \(\gamma\) 初始化
- BBQ 可实现理论最大熵(如 2-bit 达到 1.97/2.0),QuEST 熵有经验上限(约 1.93)
- 推理速度:在 RTX 5090 上,BBQ 比 FP16 快 40%,比 NF4 快 48%(NF4 在 prefill 阶段比 FP16 更慢)
- BBQ 量化核开销仅为矩阵乘法节省时间的 1/10
亮点与洞察¶
- 域无关性洞察:这是论文最核心的 "啊哈" 时刻——量化器不必在同一域做量化和反量化。这个简单但深刻的观察打破了 ITO 与计算效率不可兼得的僵局
- 用 \(\Phi\) 替代 clip:高斯 CDF 同时充当了平滑激活函数(类似 GELU vs ReLU 的关系)和信息最优分箱函数,一石二鸟
- 推理实现优雅:推理时将 \(\Phi\) + floor 联合实现为预计算边界的二分搜索,\(b\) 次比较即可,融入量化核几乎无额外延迟
- 域变换 trick 可迁移:只要任务的优化目标是域无关的(如神经网络训练),都可以考虑在信息保留最优的域做变换,在计算高效的域做运算
局限性 / 可改进方向¶
- 仅适用于 QAPT:由于 \(x\) 和 \(\hat{x}\) 不在同一域,BBQ 无法保证量化误差 \(\|x - \hat{x}\|\) 有界,因此不适用于 PTQ 和短时间的 QAFT
- 依赖 HT 的高斯化假设:训练初期 HT(x) 确实趋近高斯,但训练后期可能偏离,导致 PIT 不完全 ITO。作者建议用更精确的平滑经验 CDF 替代 \(\Phi\)
- 仅验证了语言模型:缺少视觉模型(ViT、ConvNet)和多模态模型的实验
- 可改进:将域变换思路推广到 QAFT——可能需要一个短的 "域适应" 阶段让模型适应新域
相关工作与启发¶
- vs QuEST: QuEST 也用 HT 高斯化,但用 clip+均匀量化(对高斯数据非 ITO),熵有经验上限 ~1.93 bit/2 bit;BBQ 通过 PIT 消除此瓶颈
- vs NF4/NormalFloat: NF4 是 ITO 的但需反量化到全精度计算,prefill 比 FP16 更慢;BBQ 是首个同时 ITO 且计算高效的方法
- vs N2UQ: N2UQ 也做域变换但假设权重均匀分布,且仅作用于权重;BBQ 对权重+激活都做 ITO 且不假设分布形状
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 域无关性洞察简单深刻,ITO+计算高效的结合是首创
- 实验充分度: ⭐⭐⭐⭐ 多模型多精度全面对比+推理 profiling,但缺视觉模型验证
- 写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰,从信息论到实现一气呵成
- 价值: ⭐⭐⭐⭐ 对低 bit QAPT 有直接推动,1-bit 模型的探索尤其有意义