"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization¶

会议: ACL 2025
arXiv: 2411.02355
代码: 无
领域: 模型压缩 / LLM效率
关键词: LLM quantization, FP8, INT8, INT4, inference benchmark, vLLM

一句话总结¶

这是迄今最全面的 LLM 量化实证研究，在 Llama-3.1 全系列（8B/70B/405B）上对 FP8/INT8/INT4 进行了超过 50 万次评估，发现 FP8 几乎无损、INT8 仅降 1-3%、INT4 出奇地有竞争力，并给出了不同部署场景的量化格式选择建议。

领域现状：LLM 量化已成为最主流的推理加速技术。主要量化格式包括 W8A8-FP（Hopper GPU）、W8A8-INT（Ampere GPU）、W4A16-INT（权重 4 比特）。但不同格式的精度-性能权衡缺乏系统性基准测试。
现有痛点：(1) 先前研究（如 Lee et al., 2024b）声称 W8A8-INT 性能显著差于 FP8，导致社区误解（如对 405B 量化模型的怀疑）；(2) 大多数评估仅使用学术基准，不反映真实部署场景；(3) 研究中超参数不优导致误导性结论（如 AWQ 优于 GPTQ 的结论）；(4) 缺乏结合推理性能（延迟/吞吐量）的综合分析。
核心矛盾：社区对量化存在 "BF16 or nothing" 的偏见——不确定量化是否足够好，导致了部署浪费。
本文要解决什么？ 提供数据驱动的量化格式选择指南：各格式精度损失到底多少？在不同硬件/场景下哪个格式最优？
切入角度：构建覆盖学术/真实/文本相似性的全面评估体系，在 3 种 GPU（A6000/A100/H100）上做推理性能测试。
核心idea一句话：通过超 50 万次评估回答"量化到底损失多少"——答案是：远比大家想象的少。

这不是方法论文，而是系统性实证研究。框架：三种量化格式（W8A8-FP/W8A8-INT/W4A16-INT）× Llama-3.1 全系列（8B/70B/405B）× 多维度评估（学术基准/真实任务/文本相似性/推理性能）× 三种 GPU。

评估体系:
学术基准：Open LLM Leaderboard V1（GSM/MMLU/ARC/Winogrande/HellaSwag/TruthfulQA）+ V2（MMLU-Pro/GPQA/BBH/MuSR/MATH/IFEval）
真实基准：Arena-Hard-Auto（500 复杂提示）、HumanEval/HumanEval+（代码生成）、RULER（长上下文 4k-128k）
文本相似性：ROUGE-1/ROUGE-L/BERTScore/STS，分析量化模型与原始模型在相同提示下输出的语义/结构一致性
量化算法优化:
W8A8-FP：动态逐 token 激活量化 + 对称权重量化，无需校准数据
W8A8-INT：GPTQ 对称权重量化 + 动态逐 token 激活量化 + SmoothQuant（对 70B 必要）
W4A16-INT：GPTQ + MSE 最优裁剪 + 128 元素分组 + 高质量校准数据（OpenPlatypus）
纠正先前 AWQ vs GPTQ 的误解：GPTQ 配合 MSE 裁剪和好的校准数据，在真实任务上胜出
推理性能评估:
7 种部署场景：同步/异步、不同并发数
vLLM 框架，3 种 GPU：A6000/A100/H100

量化格式	Llama-3.1-8B Leaderboard V1/V2	Arena-Hard	HumanEval
BF16	74.06 / 27.62	25.8	67.3
W8A8-FP	≈BF16（误差范围内）	≈BF16	≈BF16
W8A8-INT	73.x / 27.x（1-3%↓）	24.x	65.x
W4A16-INT(GPTQ)	73.11 / 26.53	24.0	67.1
W4A16-INT(AWQ)	72.69 / 27.40	22.3	63.0

"超参数很重要"的教训：很多先前研究关于量化格式的结论其实是超参数没调好（如 GPTQ 默认 absmax 而非 MSE 裁剪，用 C4 而非高质量数据）。这提醒我们做对比实验时要确保基线足够强
实证驱动的部署指南：不是理论分析而是 50 万次实际评估得出的结论，可直接指导工业部署
打破 "BF16 or nothing" 迷思：用大量证据表明量化并不可怕，FP8 无损、INT8 近无损，为社区降低了量化采用的心理门槛
文本相似性分析：超越传统的准确率指标，分析生成文本的结构和语义一致性，是评估量化影响的新维度