BlockDialect: Block-wise Fine-grained Mixed Format Quantization for Energy-Efficient LLM Inference¶
会议: ICML 2025
arXiv: 2501.01144
代码: 无
领域: 模型压缩
关键词: 混合格式量化, FP4变体, 细粒度量化, 能效推理, 激活量化
一句话总结¶
提出 BlockDialect——对权重和激活进行块级细粒度混合格式量化,为每个 block 从 FP4 变体(方言)格式书中选择最优数值格式,在 LLaMA3-8B 上比 MXFP4 准确率提升 10.78%,仅比全精度低 5.45%。
研究背景与动机¶
领域现状:4-bit 量化是 LLM 部署的关键技术。硬件支持的细粒度块量化(如 Microscaling/MX 格式)正在成为主流。
现有痛点:(a) 现有方法主要关注"如何缩放"(scale),忽略了"如何表示"(represent); (b) 固定的数值格式(如 FP4 E2M1)无法适应不同数据块的分布差异; (c) 激活量化仍然困难——动态范围大、通道异常值问题。
核心矛盾:既然每个 block 有独立的 scale factor,为什么不也给它独立的数值格式?
本文目标:设计块级混合数值格式量化。
切入角度:设计 FP4 变体(方言)来适应不同 block 的数据分布,用两阶段方法实现在线最优格式选择。
核心 idea:格式书(formatbook)包含多个 FP4 变体,每个 block 的最优格式由分布决定,且所有变体可表示为缩放整数,保证硬件能效。
方法详解¶
整体框架¶
- 通过 block 级数据分布分析,设计 DialectFP4 格式书
- 两阶段在线格式选择:粗分类→精选格式
- 用逻辑操作实现量化,保持 FP4 MAC 单元的面积和能效
关键设计¶
-
DialectFP4 格式书:
- 功能:设计一组 FP4 变体,覆盖不同 block 数据分布
- 核心思路:分析发现 FP4 E2M1 的可表示值 {0, 0.5, 1, 1.5, 2, 3, 4, 6} 基本匹配矩阵级分布,但不同 block 的最大值分布差异很大→设计变体调整大值区域的表示密度
- 设计动机:关键洞察是所有变体的值都选为 0.5 的倍数(缩放整数),确保可用低精度整数 MAC 计算
-
两阶段在线格式选择:
- 功能:为每个激活 block 实时选择最优格式
- 核心思路:第一阶段根据 block 最大值粗分类;第二阶段在候选格式中精选(基于简单统计)
- 设计动机:避免 MSE 暴力搜索的计算开销,零样本性能接近 MSE 方法
-
全路径量化:
- 功能:不仅量化线性层的权重-激活乘法,还量化注意力中的激活-激活乘法
- 核心思路:将 KV cache 和中间激活都用 DialectFP4 量化
- 设计动机:真正的端到端低精度,最大化能效收益
损失函数 / 训练策略¶
- 纯 PTQ,无需微调
- 格式选择在推理时在线执行
实验关键数据¶
主实验¶
LLaMA3-8B 零样本准确率:
| 方法 | 位宽 | 准确率 | vs FP16 |
|---|---|---|---|
| FP16 (全精度) | 16-bit | 69.23% | 基线 |
| MXFP4 | 4-bit | 53.00% | -16.23% |
| BlockDialect | 4-bit | 63.78% | -5.45% |
消融实验¶
| 配置 | 准确率 | 说明 |
|---|---|---|
| 单一 FP4 E2M1 | 53.00% | 固定格式 |
| 混合 2 种格式 | 58.2% | 有限覆盖 |
| 完整 DialectFP4 | 63.78% | 充分覆盖 |
| 仅线性层量化 | 67.47% | -1.76%,已很接近 FP16 |
关键发现¶
- 混合格式带来 10.78% 的准确率提升(53→63.78%)
- 全路径量化(含注意力)也保持可接受精度(-5.45%)
- 格式书中的变体数量 4-6 个就足够
亮点与洞察¶
- "为什么不给每个 block 一个格式"——这个问题非常自然但之前没人系统解决
- 缩放整数约束确保硬件兼容性,是实用化的关键
- 两阶段在线选择使方法可部署,不依赖离线校准
局限与展望¶
- 格式元数据(每 block 2-3 bits)增加存储开销
- 自定义 MAC 单元尚未有公开硬件实现
- 格式书设计依赖经验分析,自动化搜索可能更优
相关工作与启发¶
- vs any4: any4 用 LUT 做任意非均匀量化,BlockDialect 用格式书做结构化非均匀量化
- vs MXFP4: 标准细粒度格式,BlockDialect 在此基础上加混合格式
- vs SmoothQuant: 处理"如何缩放",BlockDialect 处理"如何表示"
评分¶
- 新颖性: ⭐⭐⭐⭐ 混合数值格式量化视角新颖
- 实验充分度: ⭐⭐⭐⭐ 多模型、全路径量化、硬件分析
- 写作质量: ⭐⭐⭐⭐ 分析透彻,图表丰富
- 价值: ⭐⭐⭐⭐⭐ 对下一代量化硬件设计有指导意义
相关论文¶
- [ACL 2025] MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts
- [ICML 2025] Sketch to Adapt: Fine-Tunable Sketches for Efficient LLM Adaptation
- [ICML 2025] LoRA Fine-Tuning without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs
- [ICML 2025] OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM Inference
- [ACL 2025] BlockPruner: Fine-grained Pruning for Large Language Models