Fine-Grained Post-Training Quantization for LVLMs with Quantization-aware Integrated Gradients¶

日期: 2026-03-18
arXiv: 2603.17809
领域: 多模态/VLM / 模型压缩
代码: GitHub
关键词: 量化, LVLM, token级敏感度, 积分梯度, 后训练量化

一句话总结¶

借鉴可解释性中的公理化归因方法，提出量化感知积分梯度 (QIG) 将 LVLM 量化敏感度测量从模态级推进到 token 级，在 W3A16 下 LLaVA-onevision-7B 平均精度提升 1.60%，与全精度差距仅 1.33%。

研究背景与动机¶

领域现状: LVLM 后训练量化 (PTQ) 是降低部署成本的主流手段。现有 LVLM 量化方法（MBQ、QSLAW、Q-VLM）主要在模态级别衡量量化敏感度——给视觉 token 和文本 token 分别分配一个统一的敏感度值。
现有痛点: 通过可视化 InternVL2-8B 的激活分布，作者发现了四个现象——(i) 大量激活离群值迫使量化器扩大动态范围；(ii) 层异质性，不同 Transformer 层呈现迥异的激活行为；(iii) 子层分歧，同一 block 内的 Attention Out/QKV/MLP Up/MLP Down 激活特性不同；(iv) token 变异性，同一子层内不同 token 的激活分布差异巨大。这意味着模态级建模无法捕捉 token 级的量化动态。
核心矛盾: Token 级敏感度度量理论上可以改善量化精度，但现有的代理信号与真实量化误差的相关性很弱。实验证明：（1）基于梯度的 token 级加权反而比模态级差（SFT 梯度与量化误差不匹配）；（2）注意力分数受 attention-sink 现象干扰，收益不稳定；（3）扰动法（leave-one-out）最准确，但需要逐 token 前向传播，计算代价太高。
核心 idea: 用积分梯度（Integrated Gradients）作为 token 级量化敏感度的度量。关键创新是将积分路径从零基线改为量化参考输入 \(x_q\)，并将归因目标从模型输出本身改为"全精度输出与量化输出的差"，使归因直接与量化误差对齐。

方法详解¶

整体框架¶

校准阶段：对每个 Transformer block，计算 QIG token 级敏感度 → IQR 截断抑制极端值 → 归一化为权重系数 \(\lambda_i\) → 用 \(\lambda_i\) 加权通道缩放因子（CWE）的优化目标 → 标准 PTQ 量化。推理阶段无任何额外开销。

关键设计¶

量化感知积分梯度 (QIG):
- 做什么：为每个 token 计算其对整体量化误差的归因分数
- 核心思路：标准积分梯度从零基线到实际输入积分，归因模型预测。QIG 做了两个关键修改：(a) 将基线从零改为量化后输入 \(x_q\)，(b) 将归因目标从 \(f(x)\) 改为量化误差函数 \(G(x) = f(x,w) - f(x,w_q)\)。公式：\(QIG_i(x) = (x_i - x_i^q) \cdot \int_0^1 \frac{\partial G(x_\alpha)}{\partial x_i} d\alpha\)，其中 \(x_\alpha = x_q + \alpha(x - x_q)\)
- 设计动机：满足完备性公理——所有 token 的 QIG 之和等于总量化误差 \(G(x) - G(x_q)\)，确保归因无遗漏。作者提供了完整的数学证明
- 实现细节：使用 32 步积分近似，定义逐 token 量化失真误差 \(E_{b,t}(x) = \frac{1}{H}\sum_{h=1}^H |(y_{fp} - y_q)_{b,t,h}|\)，直接在差分函数上计算，无需分别计算全精度和量化模型的梯度
IQR 截断稳定化:
- 做什么：抑制极端 token 敏感度值，防止少数 token 主导优化
- 核心思路：\(C(QIG_i) = \text{clip}(QIG_i, Q_1 - 1.5 \cdot IQR, Q_3 + 1.5 \cdot IQR)\)，其中 \(Q_1\)、\(Q_3\) 是第一和第三四分位数
- 消融验证：无截断 VizWiz 54.32% → Top5 average 57.25% → IQR Clipping 59.10%，仅修改 5 个 token 的权重就导致显著性能差异
敏感度加权校准目标:
- 做什么：将 token 级敏感度整合到 CWE 通道缩放因子优化中
- 核心思路：截断后归一化为 \(\lambda_i = C(QIG_i) / \sum_j C(QIG_j)\)，在 CWE 目标中对不同 token 的重建误差加权：\(E^* = \arg\min_E \sum_i \lambda_i \|Q_W(W*E) Q_X(E^{-1} * X_i) - WX_i\|_2^2\)

训练策略¶

校准数据：ShareGPT4V 中采样 128 对图文对
单卡 A800 80GB，与 MBQ 相比仅增加约 2 分钟校准时间（InternVL2-8B：0.55h → 0.58h），而 Leave-One-Out 需要 2.07h（+91min）

实验关键数据¶

主实验 (W3A16 权重量化)¶

模型	方法	VizWiz	MMMU	ChartQA	AI2D	ScienceQA	平均
LLaVA-ov-7B	FP16	60.41	49.22	80.04	81.31	95.88	73.37
	RTN	59.12	43.67	68.88	78.92	94.55	69.03
	MBQ	57.99	44.00	76.84	78.47	94.89	70.44
	QIG	62.82	45.78	77.20	79.11	95.29	72.04
InternVL2-8B	MBQ	59.33	46.02	80.04	79.66	95.93	72.20
	QIG	59.55	46.22	80.04	79.73	96.03	72.31

消融实验：积分梯度配置 (W4A8, LLaVA-ov-7B)¶

基线 \(x'\)	归因目标	ChartQA	VizWiz
0	\(f(x)\)	73.87	61.73
0	\(f(x) - f(0)\)	74.30	62.31
\(x_q\)	\(f(x)\)	74.12	61.52
\(x_q\)	\(f(x) - f(x_q)\) (QIG)	74.52	62.82

与 GPTQ 结合 & 大模型验证¶

GPTQ + QIG 在 VizWiz 上提升 +2.08%（LLaVA-ov-7B），方法是将 Hessian \(H = X^TX\) 替换为 \(H' = X^T \Lambda X\)
InternVL2-26B 上 W3A16 仍然有效：ChartQA 84.48→85.12, VizWiz 63.33→64.14
OCR 场景（Qwen2-VL-7B, 128 样本校准）：平均提升 +3.52%，OCRBench 70.60→76.80

关键发现¶

GPTQ 和 SmoothQuant 在 LVLM 上反而不如简单 RTN，说明多模态统计特性不能忽视
QIG 在 VizWiz 和 MMMU 上提升最大，这些基准依赖精细的视觉和推理 token
QIG 可直接插入 GPTQ 作为 plug-and-play 增强，仅改一行 Hessian 计算

亮点与洞察¶

可解释性→压缩的跨领域迁移：积分梯度原本用于模型解释，本文首次将其重新定义为量化敏感度度量。关键巧妙在于将基线和目标都适配到量化场景，而非直接套用
Token 级异质性被严重低估：消融实验中仅修改 5 个最极端 token 的权重就产生 3% 的性能差异，说明现有模态级方法损失了大量信息
即插即用零额外推理开销：仅在校准阶段计算 QIG（约 2 分钟），推理时零额外开销；可直接与 GPTQ 结合

局限性 / 可改进方向¶

积分步数（当前 32 步）是超参数，自适应步数策略值得探索
仅在 W3A16 和 W4A8 验证，更极端的 2-bit 场景效果未知
假设直线积分路径是最优的——非线性路径（如 geodesic path）可能更好
未探索与 mixed-precision 策略的结合

评分¶

新颖性: ⭐⭐⭐⭐ 积分梯度用于量化敏感度，两个关键修改设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 3 模型 × 2 量化 × 5 基准 + 多维度消融 + GPTQ 结合 + OCR 场景
写作质量: ⭐⭐⭐⭐ 从现象观察到方法推导逻辑清晰
价值: ⭐⭐⭐⭐ 对 LVLM 量化部署有直接实用意义