BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization¶

日期: 2026-03-17
arXiv: 2603.16590
领域: 多模态/VLM / 模型压缩
关键词: MXFP4量化, 后训练量化, 块仿射变换, Kronecker分解, 异常值处理

一句话总结¶

提出 BATQuant，通过块对齐的仿射变换（而非全局旋转）处理 MXFP4 量化中的异常值问题，用 Global-Private Kronecker 分解将参数量降低 79%，在 W4A4KV16 激进配置下恢复多模态基准 96.43% 的全精度性能。

领域现状: MXFP（Microscaling Floating-Point）是新一代硬件支持的量化格式（AMD CDNA4、NVIDIA Blackwell），用块级缩放替代全局缩放，理论上比整数格式有更好的动态范围。但 4-bit MXFP 量化精度仍是未解问题。
现有痛点: 基于旋转的量化方法（QuaRot、SpinQuant）在 INT4 上效果好，但应用于 MXFP4 时性能崩塌。原因：全局正交旋转将异常值能量跨块转移，破坏了块级缩放的局部统计特性；Hadamard 变换还会引入双峰分布，浪费量化比特。
核心矛盾: MXFP 格式要求每 32 个元素共享一个缩放因子（局部），但现有旋转方法在全局/跨块混合维度信息（全局），导致格式不匹配。
切入角度: 将变换范围严格限制在 MXFP 量化粒度（32 元素）内，防止跨块异常值传播。同时放弃正交性约束，改用可学习仿射矩阵优化分布形状。
核心 idea: 块对齐仿射变换 + GPK Kronecker 分解压缩参数 + 块级可学习裁剪。

在 Transformer 的每个线性层前插入块对齐仿射变换：权重侧变换离线融入权重，激活侧变换在线推理时执行。变换矩阵用 GPK 分解降低存储开销。

块对齐仿射变换 (BAT):
- 做什么：将全局变换矩阵 P 分解为块对角结构 \(\mathbf{P} = \text{diag}(\mathbf{P}_1, \ldots, \mathbf{P}_k)\)，每个 \(\mathbf{P}_i \in \mathbb{R}^{32 \times 32}\) 仅在 MXFP 块内变换
- 设计动机：防止异常值能量跨块传播。全局旋转虽然均匀化了分布，但破坏了块级缩放因子的准确性。BAT 保持每块统计独立性
- 与旋转的关键区别：放弃正交性约束——仿射矩阵的自由度更大，可以不仅分散异常值，还能主动塑形分布以适配 MXFP 的量化网格
Global-Private Kronecker (GPK) 分解:
- 做什么：将每个 \(\mathbf{P}_i\) 分解为 \(\mathbf{P}_i = \mathbf{B}_i \otimes \mathbf{A}\)，A 全局共享，\(\mathbf{B}_i\) 块私有
- 参数量：从 131,072 降至 2,112（降低 98.4%），比 FlatQuant 少 74%，比朴素 Kronecker 少 79%
- 设计动机：纯块对角矩阵的参数量 \(N \times g\) 对大模型仍然显著。GPK 用一个全局共享的基变换捕获通用模式，各块仅需少量私有参数捕获局部差异
块级可学习裁剪:
- 做什么：自适应裁剪每个量化块的异常值
- 核心思路：\(\hat{\mathbf{x}}_i = \text{clip}(\mathbf{x}_i, \sigma(\alpha_i^{\min}) \cdot \min(\mathbf{x}_i), \sigma(\alpha_i^{\max}) \cdot \max(\mathbf{x}_i))\)，sigmoid 约束裁剪比例在 (0,1)
- 设计动机：仿射变换后仍可能有残余异常值，裁剪是最后的安全网

方法	MME↑	OCRBench↑	DocVQA↑	恢复率
Full Precision	2397/894	95.72	71.22	100%
BATQuant	2368/890	95.47	72.82	96.43%
FlatQuant	2353/888	95.12	72.77	~95%
BRQ	2283/867	94.63	67.36	~91%
QuaRot	2270/860	94.90	70.26	~92%
SpinQuant	2217/832	94.41	69.04	~90%

BATQuant 在所有指标一致最优。W4A4 这种激进配置下差距更明显。

方法	GSM8K	MATH-500	AIME24	GPQA-D
Full Precision	95.37	86.40	36.67	44.44
BATQuant W4A4	93.48	83.60	33.33	37.37
FlatQuant W4A4	90.98	79.80	20.00	31.31
BRQ W4A4	89.16	80.60	16.67	36.87

推理任务上 BATQuant 优势最大——AIME24 从 20.00→33.33（+13pp）。

GPK 用 2.1K 参数达到近乎无损的效果。