Boosting Entropy with Bell Box Quantization¶

会议: ICLR 2026
arXiv: 2603.01599
代码: https://github.com/1733116199/bbq
领域: 模型压缩 / 量化
关键词: 量化感知预训练, 信息论最优量化, 计算高效数据类型, 熵最大化, 低精度推理

一句话总结¶

提出 Bell Box Quantization (BBQ)，首个同时满足"信息论最优"(ITO) 和"计算高效"(compute-efficient) 的量化方法，核心洞察是学习的域无关性——量化器输出域不必与输入域相同，由此在输入域做 ITO 量化以最大化熵，在输出域映射到硬件可加速的数据类型，在 1-4 bit QAPT 场景下全面超越 QuEST 和 LSQ。

研究背景与动机¶

领域现状：量化是将 DNN 部署到边缘设备的关键技术。量化感知预训练 (QAPT) 从零开始以低精度训练模型，可避免先全精度预训练再做 PTQ/QAFT 的额外开销，但低精度模型的信息容量有限，难以拟合大规模数据。
现有痛点：现有 QAPT 方法（如 QuEST、LSQ）使用计算高效的数据类型（INT4等），但这些数据类型 不满足信息论最优 (ITO)——量化后各量化值的使用频率不均匀，从而浪费了有限的学习容量。另一方面，现有 ITO 方法（如 NF4/NormalFloat）虽能最大化熵，但需要反量化到全精度再计算，在能量受限的边缘设备上不可用。
核心矛盾：ITO 和计算高效之间存在 trade-off——ITO 量化值不在硬件支持的数据类型中，无法利用低精度矩阵乘法加速；计算高效的整数/浮点类型对高斯分布权重不是 ITO 的。
本文要解决什么：能否在不牺牲计算效率的前提下实现 ITO 量化，让模型最大化利用有限的学习容量？
切入角度：学习是域无关的 (domain-agnostic)——DNN 可以从旋转图像、频域数据、latent embedding 中学习，只要信息被保留，把数据投影到不同域不影响学习。
核心 idea 一句话：量化器在输入域做 ITO 量化保留最多信息，输出到不同的计算高效域，使低精度矩阵乘法可直接使用。

方法详解¶

整体框架¶

BBQ 量化分三步：(a) Hadamard 变换 + RMS 归一化 → 将任意分布权重/激活转换为标准正态 \(N(0,1)\)；(b) 概率积分变换 (PIT) → 通过高斯 CDF \(\Phi\) 将正态分布映射为均匀分布 \(U(0,1)\)；(c) 均匀量化 → 对均匀数据做均匀量化即为 ITO 量化。反量化公式为简单线性缩放 \(\hat{x} = \frac{\gamma}{2^{b-1}} q\)，可利用低精度矩阵乘法加速。

量化公式：\(q = \lfloor 2^b \Phi(v) \rfloor - 2^{b-1} - z\)，其中 \(v = \text{HT}(x) / \sigma\)
反量化公式：\(\hat{x} = \frac{\gamma}{2^{b-1}} q\)

关键设计¶

Hadamard 变换 + RMS 归一化 (Step 1a)：
做什么：将权重/激活从未知分布转换为标准正态分布
核心思路：先对输入 \(x\) 沿通道维度每 \(H\) 个元素做 Hadamard 变换（已知能使数据趋向高斯），再除以 RMS \(\sigma\) 得到单位方差的 \(v \sim N(0,1)\)
设计动机：ITO 量化需要假设已知分布，通过 HT 将未知分布"高斯化"使得后续的 PIT 可以精确执行
概率积分变换 PIT (Step 1b)：
做什么：将正态数据映射为均匀分布
核心思路：对 \(v \sim N(0,1)\) 施加标准高斯 CDF \(\Phi\)，得到 \(\Phi(v) \sim U(0,1)\)。\(\Phi\) 取代了 QuEST/LSQ 中的 clip 函数
设计动机：clip 函数是分段线性的、不可微的，且对高斯数据不能均匀分配量化 bins；而 \(\Phi\) 无限可微、更平滑，且能使所有量化值等概率出现（ITO）。推理时可预计算 \(\Phi^{-1}(i/2^b)\) 作为量化边界，用 \(b\) 次浮点比较的二分搜索替代，开销极小
均匀量化 + 域变换 (Step 1c + Dequant)：
做什么：将 ITO 量化值映射到计算高效数据类型（INT4/MX FP4）
核心思路：对 \(U(0,1)\) 做均匀量化得到 \(\lfloor 2^b \Phi(v) \rfloor\)，减去偏移得到符号整数 \(q\)，可直接存为 INT4 或 MX FP4。反量化为简单线性 \(\hat{x} = \frac{\gamma}{2^{b-1}} q\)，因此矩阵乘法 \(\hat{X} \hat{W}\) 可在低精度域完成后再线性缩放
设计动机：这是域变换的核心——输入域做了信息最优的量化，输出域却是硬件友好的整数/浮点
可学习缩放因子 \(\gamma\) 与初始化：
做什么：控制反量化输出 \(\hat{x}\) 的幅度
核心思路：将缩放因子解耦为 \(s = \gamma / 2^{b-1}\)，\(\gamma\) 不依赖精度 \(b\)，初始化为 \(\zeta^* \sigma_0\)（\(\zeta^*\) 通过最小化量化误差的期望求得），使首次迭代时 \(\hat{x}\) 的幅度与 \(x\) 一致，防止梯度爆炸/消失
设计动机：朴素替换 clip 为 \(\Phi\) 若不合理初始化 \(\gamma\) 会导致训练发散（消融实验中 perplexity 从 35.58 飙到 138.3）
BBQ-Fast 变体：
推理时用指数移动平均 \(E_{1/\sigma}\) 替代实时计算的 \(1/\sigma\)，避免激活 RMS 的跨线程通讯开销，实现完全相同的 perplexity 但更快的推理速度

训练策略¶

对 floor 操作使用 Straight-Through Estimator (STE)，其余操作均可微分
对 \(\gamma\) 施加梯度缩放（除以 \(\sqrt{d}\)），不对 \(\gamma\) 使用 weight decay
权重使用 channel-wise 量化，激活使用 per-tensor 量化

实验关键数据¶

主实验¶

在 LLaMA 架构上进行 QAPT，使用 C4 数据集，对比 BBQ、QuEST、LSQ：

模型参数	训练Token	精度 (bit)	BBQ 熵/PPL	QuEST 熵/PPL	LSQ 熵/PPL
95M	3B	4-bit	3.93 / 25.51	3.61 / 26.37	3.59 / 27.46
95M	3B	3-bit	2.96 / 26.55	2.78 / 29.04	2.74 / 30.27
95M	3B	2-bit	1.97 / 31.34	1.92 / 35.58	1.69 / 36.58
95M	3B	1-bit	1.00 / 49.22	1.00 / 67.78	-
200M	10B	4-bit	3.93 / 18.79	3.61 / 19.06	2.73 / 1778
200M	10B	2-bit	1.98 / 23.08	1.93 / 25.46	1.63 / 78.19
300M	20B	4-bit	3.93 / 16.10	3.61 / 16.26	-
300M	20B	2-bit	1.98 / 19.75	1.93 / 21.53	-

BBQ 在所有精度下一致取得更高熵和更低 perplexity。精度越低，BBQ 优势越大（2-bit 降 4+ PPL，1-bit 降 18+ PPL）。LSQ 在大模型上训练发散。

消融实验¶

在 2-bit LLaMA-95M (3B tokens) 上的消融：

配置	PPL	熵	说明
BBQ 完整	31.34	1.97	最优
去 HT	35.79	1.98	PPL 涨 4.45
去 RMS	35.93	1.98	PPL 涨 4.59
QuEST (无 PIT)	35.58	1.92	baseline
加 PIT 无 \(\gamma\) 初始化	138.3	1.92	发散！
加 PIT + \(\gamma\) 初始化	31.46	1.98	PPL 降 4.12
加可学习 \(\gamma\)	31.34	1.97	再降 0.12

关键发现¶

PIT (\(\Phi\)) 替代 clip 是最关键的改进，但必须配合合理的 \(\gamma\) 初始化
BBQ 可实现理论最大熵（如 2-bit 达到 1.97/2.0），QuEST 熵有经验上限（约 1.93）
推理速度：在 RTX 5090 上，BBQ 比 FP16 快 40%，比 NF4 快 48%（NF4 在 prefill 阶段比 FP16 更慢）
BBQ 量化核开销仅为矩阵乘法节省时间的 1/10

亮点与洞察¶

域无关性洞察：这是论文最核心的 "啊哈" 时刻——量化器不必在同一域做量化和反量化。这个简单但深刻的观察打破了 ITO 与计算效率不可兼得的僵局
用 \(\Phi\) 替代 clip：高斯 CDF 同时充当了平滑激活函数（类似 GELU vs ReLU 的关系）和信息最优分箱函数，一石二鸟
推理实现优雅：推理时将 \(\Phi\) + floor 联合实现为预计算边界的二分搜索，\(b\) 次比较即可，融入量化核几乎无额外延迟
域变换 trick 可迁移：只要任务的优化目标是域无关的（如神经网络训练），都可以考虑在信息保留最优的域做变换，在计算高效的域做运算

局限性 / 可改进方向¶

仅适用于 QAPT：由于 \(x\) 和 \(\hat{x}\) 不在同一域，BBQ 无法保证量化误差 \(\|x - \hat{x}\|\) 有界，因此不适用于 PTQ 和短时间的 QAFT
依赖 HT 的高斯化假设：训练初期 HT(x) 确实趋近高斯，但训练后期可能偏离，导致 PIT 不完全 ITO。作者建议用更精确的平滑经验 CDF 替代 \(\Phi\)
仅验证了语言模型：缺少视觉模型（ViT、ConvNet）和多模态模型的实验
可改进：将域变换思路推广到 QAFT——可能需要一个短的 "域适应" 阶段让模型适应新域

评分¶

新颖性: ⭐⭐⭐⭐⭐ 域无关性洞察简单深刻，ITO+计算高效的结合是首创
实验充分度: ⭐⭐⭐⭐ 多模型多精度全面对比+推理 profiling，但缺视觉模型验证
写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰，从信息论到实现一气呵成
价值: ⭐⭐⭐⭐ 对低 bit QAPT 有直接推动，1-bit 模型的探索尤其有意义