BoA: Attention-aware Post-training Quantization without Backpropagation¶

会议: ICML 2025
arXiv: 2406.13474
代码: https://github.com/SamsungLabs/BoA
领域: 模型压缩
关键词: 训练后量化, 注意力感知, Hessian优化, LLM量化, 跨层依赖

一句话总结¶

提出 BoA——首个在训练后量化中考虑跨层依赖性的无反向传播算法，通过构建注意力感知 Hessian 矩阵捕捉注意力模块内的层间交互，在低位宽（INT2）下显著超越现有 PTQ 方法。

领域现状：PTQ 是 LLM 部署的关键技术。GPTQ 等方法使用 Hessian 信息逐层优化量化权重，但假设层间独立。

现有痛点：逐层独立优化忽略了注意力模块中 Q/K/V/O 投影层之间的交互——一层的量化误差会通过注意力传播并影响其他层的最优量化。

核心矛盾：考虑跨层依赖需要更大的 Hessian 矩阵，计算和内存开销巨大。

本文目标：如何在无反向传播框架下高效考虑注意力层间的依赖性？

切入角度：将 Hessian 从逐层重建误差扩展到注意力模块级重建误差。

核心 idea：注意力感知 Hessian + Hessian 松弛 + 逐头同时量化，在精度和效率间取得平衡。

注意力感知 Hessian:
- 功能：将量化目标从 \(\|\Delta W \cdot X\|_F^2\) 扩展为注意力模块整体输出重建误差
- 核心思路：Hessian 包含 Q/K/V 层之间的交叉信息，捕捉如"Q 层量化误差如何通过注意力权重传播到输出"
- 设计动机：注意力中的 softmax 使 Q/K/V 高度耦合，逐层独立量化次优
Hessian 松弛与高效计算:
- 功能：通过块对角近似和 Cholesky 分解减少计算量
- 核心思路：保留同一注意力头内的跨层交互，忽略不同头之间的交互
- 设计动机：同一头内 Q/K/V 交互最强，头间交互相对较弱
逐头同时量化:
- 功能：一次性量化一个注意力头的 Q/K/V 投影
- 核心思路：利用注意力感知 Hessian 的块结构并行优化
- 设计动机：比逐层串行量化更好地利用层间依赖信息

Llama-2-7B W2A16 量化 perplexity：