BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization¶
日期: 2026-03-17
arXiv: 2603.16590
领域: 多模态/VLM / 模型压缩
关键词: MXFP4量化, 后训练量化, 块仿射变换, Kronecker分解, 异常值处理
一句话总结¶
提出 BATQuant,通过块对齐的仿射变换(而非全局旋转)处理 MXFP4 量化中的异常值问题,用 Global-Private Kronecker 分解将参数量降低 79%,在 W4A4KV16 激进配置下恢复多模态基准 96.43% 的全精度性能。
研究背景与动机¶
-
领域现状: MXFP(Microscaling Floating-Point)是新一代硬件支持的量化格式(AMD CDNA4、NVIDIA Blackwell),用块级缩放替代全局缩放,理论上比整数格式有更好的动态范围。但 4-bit MXFP 量化精度仍是未解问题。
-
现有痛点: 基于旋转的量化方法(QuaRot、SpinQuant)在 INT4 上效果好,但应用于 MXFP4 时性能崩塌。原因:全局正交旋转将异常值能量跨块转移,破坏了块级缩放的局部统计特性;Hadamard 变换还会引入双峰分布,浪费量化比特。
-
核心矛盾: MXFP 格式要求每 32 个元素共享一个缩放因子(局部),但现有旋转方法在全局/跨块混合维度信息(全局),导致格式不匹配。
-
切入角度: 将变换范围严格限制在 MXFP 量化粒度(32 元素)内,防止跨块异常值传播。同时放弃正交性约束,改用可学习仿射矩阵优化分布形状。
-
核心 idea: 块对齐仿射变换 + GPK Kronecker 分解压缩参数 + 块级可学习裁剪。
方法详解¶
整体框架¶
在 Transformer 的每个线性层前插入块对齐仿射变换:权重侧变换离线融入权重,激活侧变换在线推理时执行。变换矩阵用 GPK 分解降低存储开销。
关键设计¶
-
块对齐仿射变换 (BAT):
- 做什么:将全局变换矩阵 P 分解为块对角结构 \(\mathbf{P} = \text{diag}(\mathbf{P}_1, \ldots, \mathbf{P}_k)\),每个 \(\mathbf{P}_i \in \mathbb{R}^{32 \times 32}\) 仅在 MXFP 块内变换
- 设计动机:防止异常值能量跨块传播。全局旋转虽然均匀化了分布,但破坏了块级缩放因子的准确性。BAT 保持每块统计独立性
- 与旋转的关键区别:放弃正交性约束——仿射矩阵的自由度更大,可以不仅分散异常值,还能主动塑形分布以适配 MXFP 的量化网格
-
Global-Private Kronecker (GPK) 分解:
- 做什么:将每个 \(\mathbf{P}_i\) 分解为 \(\mathbf{P}_i = \mathbf{B}_i \otimes \mathbf{A}\),A 全局共享,\(\mathbf{B}_i\) 块私有
- 参数量:从 131,072 降至 2,112(降低 98.4%),比 FlatQuant 少 74%,比朴素 Kronecker 少 79%
- 设计动机:纯块对角矩阵的参数量 \(N \times g\) 对大模型仍然显著。GPK 用一个全局共享的基变换捕获通用模式,各块仅需少量私有参数捕获局部差异
-
块级可学习裁剪:
- 做什么:自适应裁剪每个量化块的异常值
- 核心思路:\(\hat{\mathbf{x}}_i = \text{clip}(\mathbf{x}_i, \sigma(\alpha_i^{\min}) \cdot \min(\mathbf{x}_i), \sigma(\alpha_i^{\max}) \cdot \max(\mathbf{x}_i))\),sigmoid 约束裁剪比例在 (0,1)
- 设计动机:仿射变换后仍可能有残余异常值,裁剪是最后的安全网
训练¶
- 校准集:MLLM 用 128 GQA 图文对,LLM 用 128 自生成数学序列
- 5 epoch,AdamW lr=2e-3,逐层最小化量化误差
实验关键数据¶
MLLM (Qwen3-VL-8B) W4A4KV16¶
| 方法 | MME↑ | OCRBench↑ | DocVQA↑ | 恢复率 |
|---|---|---|---|---|
| Full Precision | 2397/894 | 95.72 | 71.22 | 100% |
| BATQuant | 2368/890 | 95.47 | 72.82 | 96.43% |
| FlatQuant | 2353/888 | 95.12 | 72.77 | ~95% |
| BRQ | 2283/867 | 94.63 | 67.36 | ~91% |
| QuaRot | 2270/860 | 94.90 | 70.26 | ~92% |
| SpinQuant | 2217/832 | 94.41 | 69.04 | ~90% |
BATQuant 在所有指标一致最优。W4A4 这种激进配置下差距更明显。
LLM (Qwen3-8B) Reasoning Tasks¶
| 方法 | GSM8K | MATH-500 | AIME24 | GPQA-D |
|---|---|---|---|---|
| Full Precision | 95.37 | 86.40 | 36.67 | 44.44 |
| BATQuant W4A4 | 93.48 | 83.60 | 33.33 | 37.37 |
| FlatQuant W4A4 | 90.98 | 79.80 | 20.00 | 31.31 |
| BRQ W4A4 | 89.16 | 80.60 | 16.67 | 36.87 |
推理任务上 BATQuant 优势最大——AIME24 从 20.00→33.33(+13pp)。
消融实验¶
| 配置 | 参数量 | PIQA / Hellaswag |
|---|---|---|
| 无分解 | 131K | 最高 |
| 朴素 Kronecker | 10.2K | 接近 |
| GPK | 2.1K | 接近(<0.5% 下降) |
| FlatQuant 分解 | 8.2K | 低于 GPK |
GPK 用 2.1K 参数达到近乎无损的效果。
亮点与洞察¶
- "格式对齐"的核心洞察:量化方法必须与目标格式的粒度对齐——MXFP 用块级缩放,变换也必须块级。这个看似简单的原则被之前所有旋转方法忽略了。
- 放弃正交性获得更大自由度:正交旋转保持范数但限制了分布塑形能力;仿射变换可以同时压缩和平移,更好地适配 MXFP 的非均匀量化网格。
- GPK 的参数效率:2.1K 参数/层 vs FlatQuant 的 8.2K——共享全局基+块私有差异的设计极其高效。
局限性 / 可改进方向¶
- 仅在 Qwen3 系列验证:LLaMA、Gemma 等架构的效果未知
- 推理延迟开销:在线仿射变换增加了推理计算——论文未报告实际延迟
- MXFP 硬件可用性:MXFP4 支持的硬件(CDNA4、Blackwell)尚未广泛部署
相关工作与启发¶
- vs BRQ/MR-GPTQ: 也做块级处理但仅用 Hadamard(正交),BATQuant 放弃正交用可学习仿射,效果明显更好
- vs FlatQuant: FlatQuant 做全局仿射+Kronecker,但不针对 MXFP 粒度对齐。BATQuant 的块对齐设计在 MXFP4 上明显占优
- 启发:量化方法设计必须 format-aware——不同量化格式(INT vs FP vs MXFP)需要不同的优化策略
评分¶
- 新颖性: ⭐⭐⭐⭐ MXFP4 对齐的块仿射变换 + GPK 分解,解决了清晰的格式不匹配问题
- 实验充分度: ⭐⭐⭐⭐ MLLM + LLM、多种量化配置、推理+非推理任务
- 写作质量: ⭐⭐⭐⭐ 问题分析透彻,可视化清晰
- 价值: ⭐⭐⭐⭐ 对 MXFP 硬件部署有直接实践意义