DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization¶

会议: NeurIPS 2025
arXiv: 2511.04063
代码: https://github.com/CAS-CLab/DartQuant
领域: 模型压缩 / LLM量化
关键词: LLM量化, 旋转矩阵, 分布校准, 正交优化, 后训练量化

一句话总结¶

DartQuant 提出基于分布校准的旋转矩阵优化方法，通过 Whip 损失将激活值分布推向均匀分布以减少量化误差，并用 QR-Orth 替代昂贵的流形优化器，在 70B 模型上实现 47× 加速和 10× 内存节省，首次在单张 3090 GPU 上完成大模型旋转校准。

领域现状：LLM 量化（PTQ）是部署大模型的关键技术，激活值中的极端异常值是量化精度下降的主因。旋转矩阵变换可有效平滑异常值，且因可逆性和范数保持特性可无损嵌入模型架构。
现有痛点：SpinQuant、OSTQuant 将旋转矩阵视为网络参数做端到端微调，需要 Cayley SGD 等专用优化器。70B 模型需数百 GiB 显存和数十 GPU 小时。
核心矛盾：端到端微调面临三重困难——(a) 计算资源消耗与 PTQ 快速部署目标矛盾；(b) 小样本微调容易过拟合校准集分布；(c) Cayley/Riemannian SGD 计算开销约为标准优化器的 2×。
本文要解决什么？ 如何在极低资源下快速优化旋转矩阵，同时避免过拟合。
切入角度：从分布变换角度重新定义旋转优化——不微调任务损失，而是直接约束旋转后激活值分布趋向均匀分布。
核心idea一句话：用 Whip 损失驱动激活值分布从 Laplace 转向均匀分布来减少异常值，用 QR 分解替代流形优化保证正交性。

DartQuant 流程：(1) 少量校准数据前向传播得到各层激活值；(2) Token 采样；(3) 用 QR-Orth 优化器最小化 Whip 损失，间接优化旋转矩阵 \(R\)；(4) \(R\) 融合到模型权重中，零额外推理开销。整个过程独立于任务损失，每层独立校准，无需端到端反向传播。

旋转分布校准（Rotational Distribution Calibration）:
做什么：通过约束旋转后激活值的分布形状来优化旋转矩阵
核心思路：原目标为 \(\min_R \sum_{i=1}^{c_{in}} \mathbb{I}(|(Rx)_i| > \tau)\)，指示函数不可微。方差受范数不变性约束难优化，峰度收敛慢，需要新的替代目标
设计动机：摆脱端到端微调对任务损失的依赖，从分布层面直接优化
Whip 损失函数:
做什么：将激活值分布从 Laplace 推向均匀分布
核心思路：激活值近似 \(\text{Laplace}(0, b)\)，其 CDF 变换 \(U_X(x) = \tau[\exp(x/b)-1]\)（\(x \leq 0\)）扩展零附近、压缩远端。受此启发：\(\text{Whip} = \sum_{i=1}^{c_{in}} \exp(-|x_i|)\)
设计动机：Whip 在零附近梯度最大，将小值激活推离零点。范数不变约束下小值增大则异常值自然压缩，产生"聚合效应"，分布趋向均匀
QR-Orth 优化方案:
做什么：用 QR 分解替代 Cayley/Riemannian SGD 实现正交约束
核心思路：对任意矩阵 \(Z\) 做 QR 分解得正交矩阵 \(R\)，优化潜在参数 \(Z\)（标准梯度下降），每步重新分解得 \(R\)。复杂度 \(\frac{4}{3}n^3\) 远低于 Cayley 的 \(6n^3\)
设计动机：避免流形投影运算，可用任意标准优化器（SGD/Adam），实测 1.4× 加速

模型	量化配置	方法	PPL ↓	0-shot Acc ↑
Llama-2 7B	W4A4KV16	QuaRot	20.63	57.90
Llama-2 7B	W4A4KV16	SpinQuant	19.90	57.85
Llama-2 7B	W4A4KV16	OSTQuant	19.24	57.94
Llama-2 7B	W4A4KV16	DartQuant	18.53	58.05
Llama-3 70B	W4A4KV16	SpinQuant	9.61	66.06
Llama-3 70B	W4A4KV16	OSTQuant	7.67	67.94
Llama-3 70B	W4A4KV16	DartQuant	7.99	69.39

70B 模型：仅需 0.91 GPU hr + 23.47 GiB，首次在单张 3090 上完成（约 3 小时）。