跳转至

Fine-Grained Post-Training Quantization for LVLMs with Quantization-aware Integrated Gradients

日期: 2026-03-18
arXiv: 2603.17809
领域: 多模态/VLM / 模型压缩
代码: GitHub
关键词: 量化, LVLM, token级敏感度, 积分梯度, 后训练量化

一句话总结

借鉴可解释性中的公理化归因方法,提出量化感知积分梯度 (QIG) 将 LVLM 量化敏感度测量从模态级推进到 token 级,在 W3A16 下 LLaVA-onevision-7B 平均精度提升 1.60%,与全精度差距仅 1.33%。

研究背景与动机

  1. 领域现状: LVLM 后训练量化 (PTQ) 是降低部署成本的主流手段。现有 LVLM 量化方法(MBQ、QSLAW、Q-VLM)主要在模态级别衡量量化敏感度——给视觉 token 和文本 token 分别分配一个统一的敏感度值。

  2. 现有痛点: 通过可视化 InternVL2-8B 的激活分布,作者发现了四个现象——(i) 大量激活离群值迫使量化器扩大动态范围;(ii) 层异质性,不同 Transformer 层呈现迥异的激活行为;(iii) 子层分歧,同一 block 内的 Attention Out/QKV/MLP Up/MLP Down 激活特性不同;(iv) token 变异性,同一子层内不同 token 的激活分布差异巨大。这意味着模态级建模无法捕捉 token 级的量化动态。

  3. 核心矛盾: Token 级敏感度度量理论上可以改善量化精度,但现有的代理信号与真实量化误差的相关性很弱。实验证明:(1)基于梯度的 token 级加权反而比模态级差(SFT 梯度与量化误差不匹配);(2)注意力分数受 attention-sink 现象干扰,收益不稳定;(3)扰动法(leave-one-out)最准确,但需要逐 token 前向传播,计算代价太高。

  4. 核心 idea: 用积分梯度(Integrated Gradients)作为 token 级量化敏感度的度量。关键创新是将积分路径从零基线改为量化参考输入 \(x_q\),并将归因目标从模型输出本身改为"全精度输出与量化输出的差",使归因直接与量化误差对齐。

方法详解

整体框架

校准阶段:对每个 Transformer block,计算 QIG token 级敏感度 → IQR 截断抑制极端值 → 归一化为权重系数 \(\lambda_i\) → 用 \(\lambda_i\) 加权通道缩放因子(CWE)的优化目标 → 标准 PTQ 量化。推理阶段无任何额外开销。

关键设计

  1. 量化感知积分梯度 (QIG):

    • 做什么:为每个 token 计算其对整体量化误差的归因分数
    • 核心思路:标准积分梯度从零基线到实际输入积分,归因模型预测。QIG 做了两个关键修改:(a) 将基线从零改为量化后输入 \(x_q\),(b) 将归因目标从 \(f(x)\) 改为量化误差函数 \(G(x) = f(x,w) - f(x,w_q)\)。公式:\(QIG_i(x) = (x_i - x_i^q) \cdot \int_0^1 \frac{\partial G(x_\alpha)}{\partial x_i} d\alpha\),其中 \(x_\alpha = x_q + \alpha(x - x_q)\)
    • 设计动机:满足完备性公理——所有 token 的 QIG 之和等于总量化误差 \(G(x) - G(x_q)\),确保归因无遗漏。作者提供了完整的数学证明
    • 实现细节:使用 32 步积分近似,定义逐 token 量化失真误差 \(E_{b,t}(x) = \frac{1}{H}\sum_{h=1}^H |(y_{fp} - y_q)_{b,t,h}|\),直接在差分函数上计算,无需分别计算全精度和量化模型的梯度
  2. IQR 截断稳定化:

    • 做什么:抑制极端 token 敏感度值,防止少数 token 主导优化
    • 核心思路:\(C(QIG_i) = \text{clip}(QIG_i, Q_1 - 1.5 \cdot IQR, Q_3 + 1.5 \cdot IQR)\),其中 \(Q_1\)\(Q_3\) 是第一和第三四分位数
    • 消融验证:无截断 VizWiz 54.32% → Top5 average 57.25% → IQR Clipping 59.10%,仅修改 5 个 token 的权重就导致显著性能差异
  3. 敏感度加权校准目标:

    • 做什么:将 token 级敏感度整合到 CWE 通道缩放因子优化中
    • 核心思路:截断后归一化为 \(\lambda_i = C(QIG_i) / \sum_j C(QIG_j)\),在 CWE 目标中对不同 token 的重建误差加权:\(E^* = \arg\min_E \sum_i \lambda_i \|Q_W(W*E) Q_X(E^{-1} * X_i) - WX_i\|_2^2\)

训练策略

  • 校准数据:ShareGPT4V 中采样 128 对图文对
  • 单卡 A800 80GB,与 MBQ 相比仅增加约 2 分钟校准时间(InternVL2-8B:0.55h → 0.58h),而 Leave-One-Out 需要 2.07h(+91min)

实验关键数据

主实验 (W3A16 权重量化)

模型 方法 VizWiz MMMU ChartQA AI2D ScienceQA 平均
LLaVA-ov-7B FP16 60.41 49.22 80.04 81.31 95.88 73.37
RTN 59.12 43.67 68.88 78.92 94.55 69.03
MBQ 57.99 44.00 76.84 78.47 94.89 70.44
QIG 62.82 45.78 77.20 79.11 95.29 72.04
InternVL2-8B MBQ 59.33 46.02 80.04 79.66 95.93 72.20
QIG 59.55 46.22 80.04 79.73 96.03 72.31

消融实验:积分梯度配置 (W4A8, LLaVA-ov-7B)

基线 \(x'\) 归因目标 ChartQA VizWiz
0 \(f(x)\) 73.87 61.73
0 \(f(x) - f(0)\) 74.30 62.31
\(x_q\) \(f(x)\) 74.12 61.52
\(x_q\) \(f(x) - f(x_q)\) (QIG) 74.52 62.82

与 GPTQ 结合 & 大模型验证

  • GPTQ + QIG 在 VizWiz 上提升 +2.08%(LLaVA-ov-7B),方法是将 Hessian \(H = X^TX\) 替换为 \(H' = X^T \Lambda X\)
  • InternVL2-26B 上 W3A16 仍然有效:ChartQA 84.48→85.12, VizWiz 63.33→64.14
  • OCR 场景(Qwen2-VL-7B, 128 样本校准):平均提升 +3.52%,OCRBench 70.60→76.80

关键发现

  • GPTQ 和 SmoothQuant 在 LVLM 上反而不如简单 RTN,说明多模态统计特性不能忽视
  • QIG 在 VizWiz 和 MMMU 上提升最大,这些基准依赖精细的视觉和推理 token
  • QIG 可直接插入 GPTQ 作为 plug-and-play 增强,仅改一行 Hessian 计算

亮点与洞察

  • 可解释性→压缩的跨领域迁移:积分梯度原本用于模型解释,本文首次将其重新定义为量化敏感度度量。关键巧妙在于将基线和目标都适配到量化场景,而非直接套用
  • Token 级异质性被严重低估:消融实验中仅修改 5 个最极端 token 的权重就产生 3% 的性能差异,说明现有模态级方法损失了大量信息
  • 即插即用零额外推理开销:仅在校准阶段计算 QIG(约 2 分钟),推理时零额外开销;可直接与 GPTQ 结合

局限性 / 可改进方向

  • 积分步数(当前 32 步)是超参数,自适应步数策略值得探索
  • 仅在 W3A16 和 W4A8 验证,更极端的 2-bit 场景效果未知
  • 假设直线积分路径是最优的——非线性路径(如 geodesic path)可能更好
  • 未探索与 mixed-precision 策略的结合

相关工作与启发

  • vs MBQ: MBQ 在模态级重新加权,QIG 推进到 token 级,在 MBQ 基础上平均再提 0.5%
  • vs Leave-One-Out: 效果类似但计算量是 QIG 的 30x+
  • 启发: "量化感知归因"的思路可推广到剪枝和蒸馏

评分

  • 新颖性: ⭐⭐⭐⭐ 积分梯度用于量化敏感度,两个关键修改设计精巧
  • 实验充分度: ⭐⭐⭐⭐⭐ 3 模型 × 2 量化 × 5 基准 + 多维度消融 + GPTQ 结合 + OCR 场景
  • 写作质量: ⭐⭐⭐⭐ 从现象观察到方法推导逻辑清晰
  • 价值: ⭐⭐⭐⭐ 对 LVLM 量化部署有直接实用意义