跳转至

BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

日期: 2026-03-17
arXiv: 2603.16590
领域: 多模态/VLM / 模型压缩
关键词: MXFP4量化, 后训练量化, 块仿射变换, Kronecker分解, 异常值处理

一句话总结

提出 BATQuant,通过块对齐的仿射变换(而非全局旋转)处理 MXFP4 量化中的异常值问题,用 Global-Private Kronecker 分解将参数量降低 79%,在 W4A4KV16 激进配置下恢复多模态基准 96.43% 的全精度性能。

研究背景与动机

  1. 领域现状: MXFP(Microscaling Floating-Point)是新一代硬件支持的量化格式(AMD CDNA4、NVIDIA Blackwell),用块级缩放替代全局缩放,理论上比整数格式有更好的动态范围。但 4-bit MXFP 量化精度仍是未解问题。

  2. 现有痛点: 基于旋转的量化方法(QuaRot、SpinQuant)在 INT4 上效果好,但应用于 MXFP4 时性能崩塌。原因:全局正交旋转将异常值能量跨块转移,破坏了块级缩放的局部统计特性;Hadamard 变换还会引入双峰分布,浪费量化比特。

  3. 核心矛盾: MXFP 格式要求每 32 个元素共享一个缩放因子(局部),但现有旋转方法在全局/跨块混合维度信息(全局),导致格式不匹配。

  4. 切入角度: 将变换范围严格限制在 MXFP 量化粒度(32 元素)内,防止跨块异常值传播。同时放弃正交性约束,改用可学习仿射矩阵优化分布形状。

  5. 核心 idea: 块对齐仿射变换 + GPK Kronecker 分解压缩参数 + 块级可学习裁剪。

方法详解

整体框架

在 Transformer 的每个线性层前插入块对齐仿射变换:权重侧变换离线融入权重,激活侧变换在线推理时执行。变换矩阵用 GPK 分解降低存储开销。

关键设计

  1. 块对齐仿射变换 (BAT):

    • 做什么:将全局变换矩阵 P 分解为块对角结构 \(\mathbf{P} = \text{diag}(\mathbf{P}_1, \ldots, \mathbf{P}_k)\),每个 \(\mathbf{P}_i \in \mathbb{R}^{32 \times 32}\) 仅在 MXFP 块内变换
    • 设计动机:防止异常值能量跨块传播。全局旋转虽然均匀化了分布,但破坏了块级缩放因子的准确性。BAT 保持每块统计独立性
    • 与旋转的关键区别:放弃正交性约束——仿射矩阵的自由度更大,可以不仅分散异常值,还能主动塑形分布以适配 MXFP 的量化网格
  2. Global-Private Kronecker (GPK) 分解:

    • 做什么:将每个 \(\mathbf{P}_i\) 分解为 \(\mathbf{P}_i = \mathbf{B}_i \otimes \mathbf{A}\),A 全局共享,\(\mathbf{B}_i\) 块私有
    • 参数量:从 131,072 降至 2,112(降低 98.4%),比 FlatQuant 少 74%,比朴素 Kronecker 少 79%
    • 设计动机:纯块对角矩阵的参数量 \(N \times g\) 对大模型仍然显著。GPK 用一个全局共享的基变换捕获通用模式,各块仅需少量私有参数捕获局部差异
  3. 块级可学习裁剪:

    • 做什么:自适应裁剪每个量化块的异常值
    • 核心思路:\(\hat{\mathbf{x}}_i = \text{clip}(\mathbf{x}_i, \sigma(\alpha_i^{\min}) \cdot \min(\mathbf{x}_i), \sigma(\alpha_i^{\max}) \cdot \max(\mathbf{x}_i))\),sigmoid 约束裁剪比例在 (0,1)
    • 设计动机:仿射变换后仍可能有残余异常值,裁剪是最后的安全网

训练

  • 校准集:MLLM 用 128 GQA 图文对,LLM 用 128 自生成数学序列
  • 5 epoch,AdamW lr=2e-3,逐层最小化量化误差

实验关键数据

MLLM (Qwen3-VL-8B) W4A4KV16

方法 MME↑ OCRBench↑ DocVQA↑ 恢复率
Full Precision 2397/894 95.72 71.22 100%
BATQuant 2368/890 95.47 72.82 96.43%
FlatQuant 2353/888 95.12 72.77 ~95%
BRQ 2283/867 94.63 67.36 ~91%
QuaRot 2270/860 94.90 70.26 ~92%
SpinQuant 2217/832 94.41 69.04 ~90%

BATQuant 在所有指标一致最优。W4A4 这种激进配置下差距更明显。

LLM (Qwen3-8B) Reasoning Tasks

方法 GSM8K MATH-500 AIME24 GPQA-D
Full Precision 95.37 86.40 36.67 44.44
BATQuant W4A4 93.48 83.60 33.33 37.37
FlatQuant W4A4 90.98 79.80 20.00 31.31
BRQ W4A4 89.16 80.60 16.67 36.87

推理任务上 BATQuant 优势最大——AIME24 从 20.00→33.33(+13pp)。

消融实验

配置 参数量 PIQA / Hellaswag
无分解 131K 最高
朴素 Kronecker 10.2K 接近
GPK 2.1K 接近(<0.5% 下降)
FlatQuant 分解 8.2K 低于 GPK

GPK 用 2.1K 参数达到近乎无损的效果。

亮点与洞察

  • "格式对齐"的核心洞察:量化方法必须与目标格式的粒度对齐——MXFP 用块级缩放,变换也必须块级。这个看似简单的原则被之前所有旋转方法忽略了。
  • 放弃正交性获得更大自由度:正交旋转保持范数但限制了分布塑形能力;仿射变换可以同时压缩和平移,更好地适配 MXFP 的非均匀量化网格。
  • GPK 的参数效率:2.1K 参数/层 vs FlatQuant 的 8.2K——共享全局基+块私有差异的设计极其高效。

局限性 / 可改进方向

  • 仅在 Qwen3 系列验证:LLaMA、Gemma 等架构的效果未知
  • 推理延迟开销:在线仿射变换增加了推理计算——论文未报告实际延迟
  • MXFP 硬件可用性:MXFP4 支持的硬件(CDNA4、Blackwell)尚未广泛部署

相关工作与启发

  • vs BRQ/MR-GPTQ: 也做块级处理但仅用 Hadamard(正交),BATQuant 放弃正交用可学习仿射,效果明显更好
  • vs FlatQuant: FlatQuant 做全局仿射+Kronecker,但不针对 MXFP 粒度对齐。BATQuant 的块对齐设计在 MXFP4 上明显占优
  • 启发:量化方法设计必须 format-aware——不同量化格式(INT vs FP vs MXFP)需要不同的优化策略

评分

  • 新颖性: ⭐⭐⭐⭐ MXFP4 对齐的块仿射变换 + GPK 分解,解决了清晰的格式不匹配问题
  • 实验充分度: ⭐⭐⭐⭐ MLLM + LLM、多种量化配置、推理+非推理任务
  • 写作质量: ⭐⭐⭐⭐ 问题分析透彻,可视化清晰
  • 价值: ⭐⭐⭐⭐ 对 MXFP 硬件部署有直接实践意义