Highly Efficient and Effective LLMs with Multi-Boolean Architectures¶

会议: ICLR 2026
arXiv: 2505.22811
代码: 无
领域: 模型压缩
关键词: 权重二值化, 布尔参数, 极低比特量化, 大语言模型, 直接微调

一句话总结¶

提出一种用多核布尔参数（multi-kernel Boolean parameters）表示 LLM 权重的新框架，首次实现在布尔域中直接微调大语言模型，无需全精度潜在权重，在表征能力和计算效率上同时超越现有超低比特量化和二值化方法。

研究背景与动机¶

权重二值化（weight binarization）是降低大语言模型复杂度的有力策略，将权重从32位浮点压缩到1位，理论上可实现32倍压缩比和显著的推理加速（乘法变为加减法）。

现有二值化方法的根本困境：

后训练二值化（Post-training binarization）： - 方法简单，将训练好的权重直接二值化 - 但造成严重的性能损失——1-bit 量化的信息丢失太大，模型质量急剧下降 - 对于大语言模型，这种性能退化往往是不可接受的

训练感知二值化（Training-aware binarization）： - 在训练/微调过程中进行二值化，通过梯度信号调整二值权重 - 需要维护全精度的潜在权重（latent weights）来累积梯度 - 前向传播用二值权重，反向传播用全精度权重更新 - 问题：潜在权重增加了额外的复杂性和内存开销，严重限制了效率优势 - 二值权重的表达能力有限（每个权重只有 +1/-1 两个状态）

核心矛盾：后训练方法太粗糙，训练感知方法太笨重。能否在不使用全精度潜在权重的情况下，直接在布尔域微调？

方法详解¶

整体框架¶

提出将 LLM 的权重矩阵表示为多个布尔矩阵的加权组合——即多核布尔架构。每个权重元素不再是单一的 {+1, -1}，而是多个布尔核（Boolean kernel）的线性组合，大幅增强表达能力的同时保持计算的布尔性质。

关键设计¶

多核布尔参数表示（Multi-Kernel Boolean Parameters）：
- 传统二值化：\(W \approx \alpha \cdot B\)，其中 \(B \in \{-1, +1\}^{m \times n}\)，\(\alpha\) 是缩放因子
- 多核布尔：\(W \approx \sum_{k=1}^{K} \alpha_k \cdot B_k\)，使用 \(K\) 个布尔矩阵 \(B_k\) 的加权和
- 每个 \(B_k\) 是独立的布尔矩阵，\(\alpha_k\) 是对应的缩放因子
- \(K\) 个核的组合能表示 \(2^K\) 个不同的权重级别（vs. 单核二值化的2个级别）
- 当 \(K=2\) 时，等效于约 2-bit 量化；\(K=3\) 时约 3-bit
- 关键优势：矩阵乘法 \(Wx\) 分解为 \(K\) 次布尔矩阵与向量的乘法，可用 XNOR+popcount 高效实现
布尔域直接微调（Direct Finetuning in Boolean Domain）：这是本文最核心的贡献
- 挑战：布尔变量 \(\{-1, +1\}\) 是离散的，无法直接用连续梯度下降优化
- 传统做法：维护全精度潜在权重 \(W_{\text{latent}} \in \mathbb{R}\)，用 \(\text{sign}(W_{\text{latent}})\) 得到布尔权重，梯度更新 \(W_{\text{latent}}\)（直通估计器 STE）
- 本文方法：完全消除潜在权重，直接在布尔域中更新
- 核心思路：将布尔翻转（flip）操作建模为概率事件，基于损失函数相对于每个布尔元素翻转的预期改进来决定是否翻转
- 这种方法避免了 STE 带来的梯度偏差问题，且不需要存储全精度权重
缩放因子的高效优化：
- 布尔矩阵 \(B_k\) 确定后，缩放因子 \(\alpha_k\) 可通过简单的闭式解（最小二乘）快速求解
- 交替优化：固定 \(\alpha\) 更新 \(B\)，固定 \(B\) 更新 \(\alpha\)
- 收敛快速，通常几轮迭代即可
分组量化策略：
- 按列或按块对权重矩阵分组，每组使用独立的缩放因子
- 增加了精细度，以少量额外参数（缩放因子）换取显著的精度提升
- 分组大小是精度和压缩率之间的权衡参数

损失函数 / 训练策略¶

微调使用标准的语言模型交叉熵损失：

\[\mathcal{L} = -\sum_{t} \log P(x_t | x_{<t}; \{B_k, \alpha_k\})\]

训练过程： 1. 初始化：从预训练权重出发，通过 SVD 或贪心搜索确定初始的多核布尔矩阵 2. 微调：在小规模数据上交替优化布尔矩阵和缩放因子 3. 不需要大规模训练数据，通常用几千条样本即可有效微调 4. 微调过程中内存占用远低于传统训练感知方法（无需全精度潜在权重）

实验关键数据¶

主实验¶

在多个 LLM 架构上评估（包括 LLaMA 系列等），测量困惑度（perplexity）和下游任务性能：

方法	比特宽度	LLaMA-7B PPL ↓	LLaMA-13B PPL ↓	压缩比
全精度	16 bit	基线	基线	1×
GPTQ	3 bit	中等	中等	~5×
RTN	2 bit	较高	较高	~8×
BiLLM	1 bit	很高	很高	~16×
OneBit	1 bit	高	高	~16×
多核布尔 (K=2)	~1.5 bit	较低	较低	~10×
多核布尔 (K=3)	~2 bit	最低	最低	~8×

在超低比特（1-2 bit）范围内，多核布尔方法显著优于所有现有二值化和量化技术。

消融实验¶

配置	效果说明
K=1（标准二值化）	性能最差，但压缩最大
K=2	性能大幅提升，接近 2-bit 量化
K=3	性能进一步提升，与 3-bit GPTQ 竞争力强
有潜在权重 vs. 无潜在权重	布尔域直接微调性能不低于使用潜在权重的方法
分组大小 128 vs. 256 vs. 全层	分组越小越精确，128为常用选择
不同初始化策略	SVD 初始化优于随机初始化

关键发现¶

多核布尔显著提升表达能力：从 \(K=1\) 到 \(K=2\)，困惑度下降幅度远大于从 2-bit 到 3-bit 量化的提升
消除潜在权重是可行的：布尔域直接微调不仅不损失性能，还简化了训练流程和内存占用
在极低比特下优势最明显：在 1-2 bit 范围内，多核布尔方法相比传统量化的优势最大
跨架构泛化：方法在 LLaMA-7B、13B 等不同规模模型上均表现一致
训练效率显著：无需全精度潜在权重，微调时内存占用减少约50%

亮点与洞察¶

突破二值化的表达力瓶颈：通过多核组合，将布尔参数从2个离散值扩展到 \(2^K\) 个级别，这是一个简单而有效的想法
首次布尔域直接微调：消除对全精度潜在权重的依赖是重要的理论和实践突破——这意味着整个训练和推理流程都可以在极低精度下完成
硬件友好：多核布尔乘法本质上是 \(K\) 次 XNOR+popcount 操作，在专用硬件上可实现极高吞吐量
理论优雅性：多核一值化可以看作一种结构化的低比特量化，其中每个量化级别由布尔组合确定，反可换一种理论分析视角
实用性强：微调数据需求小、内存占用低、部署简单

局限与展望¶

推理速度依赖专用硬件：虽然理论上 XNOR+popcount 极快，但现有 GPU 对布尔运算的硬件支持有限，实际加速可能不如理论预期
K 值增大的边际收益递减：K=4 以上的改进可能不够显著，而额外的核增加了并行度需求
仅在语言模型上验证：视觉模型、多模态模型等是否同样适用需要额外实验
微调数据选择的影响：文中未深入分析不同微调数据集对最终性能的影响
与知识蒸馏的结合：使用全精度教师模型指导布尔学生模型可能进一步提升性能
激活也是布尔？：当前仅二值化权重，激活仍为全精度，完全布尔化（权重+激活）是更激进的方向

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐