ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference¶

会议: ICLR 2026
arXiv: 2511.10645
代码: 项目页
领域: 模型压缩
关键词: 后训练量化, Givens旋转, 推理LLM, 量化效率, 算法-系统协同设计

一句话总结¶

提出 ParoQuant，通过硬件高效且可优化的独立 Givens 旋转与通道缩放相结合来消除权重异常值，在推理 LLM 上实现高精度低开销的 4-bit 权重量化。

研究背景与动机¶

LLM 量化面临精度和效率的两难： - AWQ：快速但精度损失大（如 Qwen3-4B 在 MMLU-Pro 上降 2.8%），推理 LLM 的长链思维使量化误差逐步累积 - QTIP：精度高但比 AWQ 慢约 30%，因为 Hadamard 变换引入了显著开销 - 推理模型需要生成数万 token，对量化的精度和效率要求更高

核心观察：

旋转有效抑制异常值，但全旋转矩阵计算代价大

稀疏参数化的旋转同样有效——仅保留 top-10% 通道对即可匹配全旋转效果

方法详解¶

整体框架¶

ParoQuant 设计了 Scaled Pairwise Rotation 变换，由多个独立旋转和通道缩放组成，配合层级优化和高效推理内核实现端到端加速。

关键设计¶

Givens 旋转分解：
- 选择一小组通道对 \(\mathcal{P} = \{(i_1,j_1), \ldots, (i_m,j_m)\}\)
- 每对执行平面旋转：\(\mathbf{W}^{(k)}[i,:] = \cos\theta_k \cdot \mathbf{W}^{(k-1)}[i,:] - \sin\theta_k \cdot \mathbf{W}^{(k-1)}[j,:]\)
- 仅需少量向量化乘加运算，避免全矩阵乘法
独立旋转 (Independent Rotation)：
- 约束每个通道最多出现在一个旋转对中（\(P_k \cap P_l = \emptyset\)）
- 所有 Givens 旋转可完全并行化，充分利用 GPU 并行性
- 自然兼容分组量化：每个量化组内独立旋转
串联独立旋转 + 通道缩放：
- 单次独立旋转仅有 \(n/2\) 个参数，表达力有限
- 顺序施加 \(K\) 次独立旋转（默认 \(K=8\)）提升拟合能力
- 通道缩放 \(\text{diag}(\boldsymbol{\alpha})\) 直接均衡通道幅度
- 最终变换：\(T_{\mathcal{P},\Theta,\boldsymbol{\alpha}}(\mathbf{W}) = (\prod_{t=1}^K R(\mathcal{P}_t, \Theta_t)) \cdot \text{diag}(\boldsymbol{\alpha}) \cdot \mathbf{W}\)

损失函数 / 训练策略¶

层级优化：\(\mathcal{L}(Q) = \|Q(D)(\mathbf{X'}) - D(\mathbf{X})\|\)
两阶段优化：先优化旋转角度和缩放因子，再用 QAT-like 方法微调权重和量化参数 \(s, z\)
每层优化 10 epoch，使用 AdamW，三个数据集（WikiText2, C4, RedPajama）均匀采样
推理内核利用三级并行：token 维度、通道组维度、旋转对维度

实验关键数据¶

主实验（困惑度 - W4G128 量化）¶

模型	方法	WikiText2 PPL	C4 PPL	推理加速
LLaMA-3-8B	FP16	5.54	7.10	1.0×
	AWQ	5.92	7.42	2.4×
	QTIP	5.69	7.22	1.7×
	ParoQuant	5.68	7.17	2.2×
Qwen3-4B	AWQ	7.36	7.89	2.4×
	QTIP	7.09	7.68	1.7×
	ParoQuant	7.03	7.63	2.2×

推理任务精度（DeepSeek-R1-distilled LLaMA-3.1-8B）¶

方法	MMLU-Pro	GPQA Diamond	AIME-24	AIME-25	平均
FP16	52.4	43.9	56.7	40.0	48.3
AWQ	49.3	40.4	46.7	26.7	40.8
ParoQuant	52.5	41.4	53.3	36.7	46.0

关键发现¶

ParoQuant 在推理任务上平均比 AWQ 提升 2.4%，开销不到 10%
精度匹配 QTIP（向量量化 SOTA），但速度快约 25%
在 Qwen3 系列（1.7B-14B）上效果尤其显著，小模型量化更具挑战

亮点与洞察¶

算法-系统协同设计：独立旋转的约束既保证了数学优化空间，又天然适合 GPU 并行
分析精辟：仅 10% 的通道对就能匹配全旋转效果，揭示了正交变换的冗余性
对推理 LLM 特别关注，结合长链思维的量化误差累积问题分析透彻
在线旋转内核利用共享内存和寄存器，多个独立旋转可融合为单次 kernel 调用

局限与展望¶

目前主要验证 4-bit 线性量化，未探索 2-3 bit 场景
独立旋转的通道对选择策略（随机+去重）可能非最优
旋转数 K=8 是经验值，不同模型可能需要不同 K
未开源时可能限制社区采用

评分¶

新颖性: ⭐⭐⭐⭐ 独立 Givens 旋转的设计新颖实用
实验充分度: ⭐⭐⭐⭐⭐ 多模型多任务多指标全面验证
写作质量: ⭐⭐⭐⭐ 动机分析清楚，但公式较多
价值: ⭐⭐⭐⭐⭐ 推理 LLM 量化的实用解决方案