BlockDialect: Block-wise Fine-grained Mixed Format Quantization for Energy-Efficient LLM Inference¶

会议: ICML 2025
arXiv: 2501.01144
代码: 无
领域: 模型压缩
关键词: 混合格式量化, FP4变体, 细粒度量化, 能效推理, 激活量化

一句话总结¶

提出 BlockDialect——对权重和激活进行块级细粒度混合格式量化，为每个 block 从 FP4 变体（方言）格式书中选择最优数值格式，在 LLaMA3-8B 上比 MXFP4 准确率提升 10.78%，仅比全精度低 5.45%。

领域现状：4-bit 量化是 LLM 部署的关键技术。硬件支持的细粒度块量化（如 Microscaling/MX 格式）正在成为主流。

现有痛点：(a) 现有方法主要关注"如何缩放"（scale），忽略了"如何表示"（represent）; (b) 固定的数值格式（如 FP4 E2M1）无法适应不同数据块的分布差异; (c) 激活量化仍然困难——动态范围大、通道异常值问题。

核心矛盾：既然每个 block 有独立的 scale factor，为什么不也给它独立的数值格式？

本文目标：设计块级混合数值格式量化。

切入角度：设计 FP4 变体（方言）来适应不同 block 的数据分布，用两阶段方法实现在线最优格式选择。

核心 idea：格式书（formatbook）包含多个 FP4 变体，每个 block 的最优格式由分布决定，且所有变体可表示为缩放整数，保证硬件能效。

DialectFP4 格式书:
- 功能：设计一组 FP4 变体，覆盖不同 block 数据分布
- 核心思路：分析发现 FP4 E2M1 的可表示值 {0, 0.5, 1, 1.5, 2, 3, 4, 6} 基本匹配矩阵级分布，但不同 block 的最大值分布差异很大→设计变体调整大值区域的表示密度
- 设计动机：关键洞察是所有变体的值都选为 0.5 的倍数（缩放整数），确保可用低精度整数 MAC 计算
两阶段在线格式选择:
- 功能：为每个激活 block 实时选择最优格式
- 核心思路：第一阶段根据 block 最大值粗分类；第二阶段在候选格式中精选（基于简单统计）
- 设计动机：避免 MSE 暴力搜索的计算开销，零样本性能接近 MSE 方法
全路径量化:
- 功能：不仅量化线性层的权重-激活乘法，还量化注意力中的激活-激活乘法
- 核心思路：将 KV cache 和中间激活都用 DialectFP4 量化
- 设计动机：真正的端到端低精度，最大化能效收益

LLaMA3-8B 零样本准确率：

方法	位宽	准确率	vs FP16
FP16 (全精度)	16-bit	69.23%	基线
MXFP4	4-bit	53.00%	-16.23%
BlockDialect	4-bit	63.78%	-5.45%