跳转至

Boosting Entropy with Bell Box Quantization

会议: ICLR 2026
arXiv: 2603.01599
代码: https://github.com/1733116199/bbq
领域: 模型压缩 / 量化
关键词: 量化感知预训练, 信息论最优量化, 计算高效数据类型, 熵最大化, 低精度推理

一句话总结

提出 Bell Box Quantization (BBQ),首个同时满足"信息论最优"(ITO) 和"计算高效"(compute-efficient) 的量化方法,核心洞察是学习的域无关性——量化器输出域不必与输入域相同,由此在输入域做 ITO 量化以最大化熵,在输出域映射到硬件可加速的数据类型,在 1-4 bit QAPT 场景下全面超越 QuEST 和 LSQ。

研究背景与动机

  1. 领域现状:量化是将 DNN 部署到边缘设备的关键技术。量化感知预训练 (QAPT) 从零开始以低精度训练模型,可避免先全精度预训练再做 PTQ/QAFT 的额外开销,但低精度模型的信息容量有限,难以拟合大规模数据。
  2. 现有痛点:现有 QAPT 方法(如 QuEST、LSQ)使用计算高效的数据类型(INT4等),但这些数据类型 不满足信息论最优 (ITO)——量化后各量化值的使用频率不均匀,从而浪费了有限的学习容量。另一方面,现有 ITO 方法(如 NF4/NormalFloat)虽能最大化熵,但需要反量化到全精度再计算,在能量受限的边缘设备上不可用。
  3. 核心矛盾:ITO 和计算高效之间存在 trade-off——ITO 量化值不在硬件支持的数据类型中,无法利用低精度矩阵乘法加速;计算高效的整数/浮点类型对高斯分布权重不是 ITO 的。
  4. 本文要解决什么:能否在不牺牲计算效率的前提下实现 ITO 量化,让模型最大化利用有限的学习容量?
  5. 切入角度学习是域无关的 (domain-agnostic)——DNN 可以从旋转图像、频域数据、latent embedding 中学习,只要信息被保留,把数据投影到不同域不影响学习。
  6. 核心 idea 一句话:量化器在输入域做 ITO 量化保留最多信息,输出到不同的计算高效域,使低精度矩阵乘法可直接使用。

方法详解

整体框架

BBQ 量化分三步:(a) Hadamard 变换 + RMS 归一化 → 将任意分布权重/激活转换为标准正态 \(N(0,1)\);(b) 概率积分变换 (PIT) → 通过高斯 CDF \(\Phi\) 将正态分布映射为均匀分布 \(U(0,1)\);(c) 均匀量化 → 对均匀数据做均匀量化即为 ITO 量化。反量化公式为简单线性缩放 \(\hat{x} = \frac{\gamma}{2^{b-1}} q\),可利用低精度矩阵乘法加速。

量化公式:\(q = \lfloor 2^b \Phi(v) \rfloor - 2^{b-1} - z\),其中 \(v = \text{HT}(x) / \sigma\)
反量化公式:\(\hat{x} = \frac{\gamma}{2^{b-1}} q\)

关键设计

  1. Hadamard 变换 + RMS 归一化 (Step 1a)
  2. 做什么:将权重/激活从未知分布转换为标准正态分布
  3. 核心思路:先对输入 \(x\) 沿通道维度每 \(H\) 个元素做 Hadamard 变换(已知能使数据趋向高斯),再除以 RMS \(\sigma\) 得到单位方差的 \(v \sim N(0,1)\)
  4. 设计动机:ITO 量化需要假设已知分布,通过 HT 将未知分布"高斯化"使得后续的 PIT 可以精确执行

  5. 概率积分变换 PIT (Step 1b)

  6. 做什么:将正态数据映射为均匀分布
  7. 核心思路:对 \(v \sim N(0,1)\) 施加标准高斯 CDF \(\Phi\),得到 \(\Phi(v) \sim U(0,1)\)\(\Phi\) 取代了 QuEST/LSQ 中的 clip 函数
  8. 设计动机:clip 函数是分段线性的、不可微的,且对高斯数据不能均匀分配量化 bins;而 \(\Phi\) 无限可微、更平滑,且能使所有量化值等概率出现(ITO)。推理时可预计算 \(\Phi^{-1}(i/2^b)\) 作为量化边界,用 \(b\) 次浮点比较的二分搜索替代,开销极小

  9. 均匀量化 + 域变换 (Step 1c + Dequant)

  10. 做什么:将 ITO 量化值映射到计算高效数据类型(INT4/MX FP4)
  11. 核心思路:对 \(U(0,1)\) 做均匀量化得到 \(\lfloor 2^b \Phi(v) \rfloor\),减去偏移得到符号整数 \(q\),可直接存为 INT4 或 MX FP4。反量化为简单线性 \(\hat{x} = \frac{\gamma}{2^{b-1}} q\),因此矩阵乘法 \(\hat{X} \hat{W}\) 可在低精度域完成后再线性缩放
  12. 设计动机:这是域变换的核心——输入域做了信息最优的量化,输出域却是硬件友好的整数/浮点

  13. 可学习缩放因子 \(\gamma\) 与初始化

  14. 做什么:控制反量化输出 \(\hat{x}\) 的幅度
  15. 核心思路:将缩放因子解耦为 \(s = \gamma / 2^{b-1}\)\(\gamma\) 不依赖精度 \(b\),初始化为 \(\zeta^* \sigma_0\)\(\zeta^*\) 通过最小化量化误差的期望求得),使首次迭代时 \(\hat{x}\) 的幅度与 \(x\) 一致,防止梯度爆炸/消失
  16. 设计动机:朴素替换 clip 为 \(\Phi\) 若不合理初始化 \(\gamma\) 会导致训练发散(消融实验中 perplexity 从 35.58 飙到 138.3)

  17. BBQ-Fast 变体

  18. 推理时用指数移动平均 \(E_{1/\sigma}\) 替代实时计算的 \(1/\sigma\),避免激活 RMS 的跨线程通讯开销,实现完全相同的 perplexity 但更快的推理速度

训练策略

  • 对 floor 操作使用 Straight-Through Estimator (STE),其余操作均可微分
  • \(\gamma\) 施加梯度缩放(除以 \(\sqrt{d}\)),不对 \(\gamma\) 使用 weight decay
  • 权重使用 channel-wise 量化,激活使用 per-tensor 量化

实验关键数据

主实验

在 LLaMA 架构上进行 QAPT,使用 C4 数据集,对比 BBQ、QuEST、LSQ:

模型参数 训练Token 精度 (bit) BBQ 熵/PPL QuEST 熵/PPL LSQ 熵/PPL
95M 3B 4-bit 3.93 / 25.51 3.61 / 26.37 3.59 / 27.46
95M 3B 3-bit 2.96 / 26.55 2.78 / 29.04 2.74 / 30.27
95M 3B 2-bit 1.97 / 31.34 1.92 / 35.58 1.69 / 36.58
95M 3B 1-bit 1.00 / 49.22 1.00 / 67.78 -
200M 10B 4-bit 3.93 / 18.79 3.61 / 19.06 2.73 / 1778
200M 10B 2-bit 1.98 / 23.08 1.93 / 25.46 1.63 / 78.19
300M 20B 4-bit 3.93 / 16.10 3.61 / 16.26 -
300M 20B 2-bit 1.98 / 19.75 1.93 / 21.53 -

BBQ 在所有精度下一致取得更高熵和更低 perplexity。精度越低,BBQ 优势越大(2-bit 降 4+ PPL,1-bit 降 18+ PPL)。LSQ 在大模型上训练发散。

消融实验

在 2-bit LLaMA-95M (3B tokens) 上的消融:

配置 PPL 说明
BBQ 完整 31.34 1.97 最优
去 HT 35.79 1.98 PPL 涨 4.45
去 RMS 35.93 1.98 PPL 涨 4.59
QuEST (无 PIT) 35.58 1.92 baseline
加 PIT 无 \(\gamma\) 初始化 138.3 1.92 发散!
加 PIT + \(\gamma\) 初始化 31.46 1.98 PPL 降 4.12
加可学习 \(\gamma\) 31.34 1.97 再降 0.12

关键发现

  • PIT (\(\Phi\)) 替代 clip 是最关键的改进,但必须配合合理的 \(\gamma\) 初始化
  • BBQ 可实现理论最大熵(如 2-bit 达到 1.97/2.0),QuEST 熵有经验上限(约 1.93)
  • 推理速度:在 RTX 5090 上,BBQ 比 FP16 快 40%,比 NF4 快 48%(NF4 在 prefill 阶段比 FP16 更慢)
  • BBQ 量化核开销仅为矩阵乘法节省时间的 1/10

亮点与洞察

  • 域无关性洞察:这是论文最核心的 "啊哈" 时刻——量化器不必在同一域做量化和反量化。这个简单但深刻的观察打破了 ITO 与计算效率不可兼得的僵局
  • \(\Phi\) 替代 clip:高斯 CDF 同时充当了平滑激活函数(类似 GELU vs ReLU 的关系)和信息最优分箱函数,一石二鸟
  • 推理实现优雅:推理时将 \(\Phi\) + floor 联合实现为预计算边界的二分搜索,\(b\) 次比较即可,融入量化核几乎无额外延迟
  • 域变换 trick 可迁移:只要任务的优化目标是域无关的(如神经网络训练),都可以考虑在信息保留最优的域做变换,在计算高效的域做运算

局限性 / 可改进方向

  • 仅适用于 QAPT:由于 \(x\)\(\hat{x}\) 不在同一域,BBQ 无法保证量化误差 \(\|x - \hat{x}\|\) 有界,因此不适用于 PTQ 和短时间的 QAFT
  • 依赖 HT 的高斯化假设:训练初期 HT(x) 确实趋近高斯,但训练后期可能偏离,导致 PIT 不完全 ITO。作者建议用更精确的平滑经验 CDF 替代 \(\Phi\)
  • 仅验证了语言模型:缺少视觉模型(ViT、ConvNet)和多模态模型的实验
  • 可改进:将域变换思路推广到 QAFT——可能需要一个短的 "域适应" 阶段让模型适应新域

相关工作与启发

  • vs QuEST: QuEST 也用 HT 高斯化,但用 clip+均匀量化(对高斯数据非 ITO),熵有经验上限 ~1.93 bit/2 bit;BBQ 通过 PIT 消除此瓶颈
  • vs NF4/NormalFloat: NF4 是 ITO 的但需反量化到全精度计算,prefill 比 FP16 更慢;BBQ 是首个同时 ITO 且计算高效的方法
  • vs N2UQ: N2UQ 也做域变换但假设权重均匀分布,且仅作用于权重;BBQ 对权重+激活都做 ITO 且不假设分布形状

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 域无关性洞察简单深刻,ITO+计算高效的结合是首创
  • 实验充分度: ⭐⭐⭐⭐ 多模型多精度全面对比+推理 profiling,但缺视觉模型验证
  • 写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰,从信息论到实现一气呵成
  • 价值: ⭐⭐⭐⭐ 对低 bit QAPT 有直接推动,1-bit 模型的探索尤其有意义