跳转至

SAQ-SAM: Semantically-Aligned Quantization for Segment Anything Model

会议: AAAI 2026
arXiv: 2503.06515
代码: https://github.com/jingjing0419/SAQ-SAM
领域: 分割
关键词: SAM, 后训练量化, 语义对齐, 注意力感知, 模型压缩

一句话总结

提出 SAQ-SAM,从语义对齐视角改进 SAM 的后训练量化(PTQ),通过感知一致性裁剪(PCC)处理掩码解码器中的极端异常值,并用提示感知重建(PAR)保持图像-提示交互的语义对齐。

研究背景与动机

SAM 模型具有强大的零样本分割能力,但其参数量大、计算开销高,难以在边缘设备上部署。后训练量化(PTQ)是一种高效的压缩方案,仅需少量未标注数据即可校准量化参数。然而,直接将现有 PTQ 方法应用于 SAM 面临两大独特挑战:

挑战一:掩码解码器的极端异常值

SAM 掩码解码器的 QK 激活存在极端异常值分布:大部分数据集中在狭窄范围(如 [-1, 1]),而异常值可超过正常范围的 180 倍(如 [-167, 177])。作者发现了一个关键现象:大幅度裁剪这些异常值对分割性能几乎没有影响。例如,将 [-167, 177] 裁剪到 [-1, 1],分割性能不降反升。

但传统的基于分布的度量(如 MSE)无法提供如此大尺度的裁剪——MSE 会给出过宽的裁剪范围来保留异常值,导致量化分辨率不足。这是因为分布对齐 ≠ 语义对齐:保持分布一致并不能保证注意力的语义功能一致。

挑战二:量化重建忽略提示语义

现有量化重建方法(如 BRECQ、QDrop)仅在编码器内部逐块最小化全精度模型的响应误差。但 SAM 的核心特性是提示跟随:图像嵌入需要在掩码解码器中与提示嵌入交互。局部重建纯图像特征忽略了提示意图,可能引入干扰图像-提示交互的冗余信息。

核心洞察:量化中的语义失配是低比特量化的主要瓶颈,需要从分布对齐升级到语义对齐。

方法详解

整体框架

SAQ-SAM 包含两大核心技术:

  1. 感知一致性裁剪(PCC):用于掩码解码器 QK 激活的异常值处理——利用注意力焦点重叠度作为语义度量来指导裁剪
  2. 提示感知重建(PAR):用于图像编码器的量化参数学习——将图像-提示交互纳入重建过程

关键设计

1. 感知一致性裁剪(PCC)

注意力焦点重叠度度量:定义高关注区域为"注意力焦点",通过阈值因子 \(\theta\) 过滤显著注意力值,生成二值化注意力焦点掩码:

\[M_A = \mathbf{1}\{A_w > \theta \cdot \max(A_w)\} \in \mathbb{R}^{N_q \times N_k}\]

然后计算量化前后注意力焦点掩码的 IoU:

\[\text{IoU}_{AF}(A_w, \hat{A}_w) = \frac{|M_A \cap \hat{M}_A|}{|M_A \cup \hat{M}_A|}\]

PCC 的距离函数:\(\text{Dist}_{pcc} = 1 - \text{IoU}_{AF}(A_w, \hat{A}_w)\)

利用此度量确定 QK 激活的最优裁剪边界 \(x_{low}\)\(x_{up}\)

设计动机: - 注意力机制的本质是捕获语义信息——分配更多关注给任务相关区域。因此用注意力焦点重叠度代替分布匹配来衡量量化质量,是在语义层面保持一致性 - 此度量与幅度无关:即使异常值被大幅裁剪([-167,177] → [-1,1]),只要注意力焦点分布不变,就认为语义被保持 - 实验证明 \(\theta = 0.5\) 对性能鲁棒(图6a),PCC 在所有 \(\theta\) 设定下均优于基线

2. 提示感知重建(PAR)

交互响应重建:利用 SAM 掩码解码器中的现成交叉注意力模块(Two-Way Transformer)将提示信息纳入图像 token:

\[T_{ip}^k = \text{TwoWayTransformer}(T_i^k, T_p)\]

其中 \(T_p\) 是提示编码器编码的提示 token,\(T_i^k\) 是第 \(k\) 阶段输出的图像 token。然后最小化混合 token 与全精度响应的 L2 距离:

\[\min_{s,z,\alpha} \|{\hat{T}}_{ip}^k - T_{ip}^k\|_2^2\]

设计动机:通过重建混合图像 token(而非纯图像 token),量化模型在学习过程中保持了视觉特征与提示意图的对应关系。这不仅对齐了分布,还在语义层面实现了对齐。

层跳跃策略:将编码器按全局注意力层为边界划分为多个阶段(如 SAM-B 中 L0-L2 为阶段 0),每个阶段的输出跳过后续层直接进入 Neck 参与交互:

\[T_i^k = \text{Neck}\left(\left(\prod_{i=0}^k \text{Stage}^k\right)(E_i)\right)\]

设计动机:(1)避免完整前向传播的高计算开销;(2)跳过深层后保留了各阶段不同粒度的语义信息;(3)实验证明早期阶段的"不成熟"token 也能产生合理分割结果(图5),说明层跳跃设计可行。

3. 阶段划分学习

以全局注意力层为边界将 Transformer 层划分为多阶段,每阶段内联合优化量化参数。这比逐块学习更能捕获块间权重相关性。PAR 的阶段式学习总迭代次数远低于基线 PTQ4SAM(后者使用逐块学习 20000 次迭代),计算效率更高。

损失函数 / 训练策略

  • PCC:使用注意力焦点 IoU 作为裁剪度量,仅需第一个样本校准
  • PAR:L2 重建损失,编码器采用阶段式学习,解码器采用逐层学习(2000 迭代),最后一个交叉注意力块 10000 迭代
  • 校准集:32 张随机采样的训练图像
  • 量化方案:激活使用逐张量非对称量化,权重使用逐通道非对称量化

实验关键数据

主实验

实例分割(COCO, DINO 检测器)

方法 类型 SAM-B 6/6 SAM-B 4/4 SAM-L 6/6 SAM-L 4/4 SAM-H 6/6 SAM-H 4/4
MinMax 统计 11.2 - 44.7 - 42.8 -
PTQ4SAM-S 统计 20.4 - 47.7 23.1 48.1 30.5
SAQ-SAM★ 统计 39.4 3.5 48.0 27.8 48.2 31.6
QDrop 学习 38.9 11.2 47.5 27.5 48.3 41.7
PTQ4SAM-L 学习 40.4 14.4 48.3 36.6 48.7 43.9
SAQ-SAM 学习 42.4 33.8 48.3 46.3 48.9 47.4
FP - 44.5 44.5 48.6 48.6 49.1 49.1

4-bit SAM-B 提升:PTQ4SAM-L 14.4% → SAQ-SAM 33.8%(+19.4%);4-bit SAM-L 近无损(46.3% vs FP 48.6%)

语义分割(ADE20K)

方法 SAM-B 6/6 SAM-B 4/4 SAM-L 6/6 SAM-L 4/4
PTQ4SAM-L 32.65 31.85 33.66 32.82
SAQ-SAM 33.04 32.53 33.63 33.30
FP 33.15 33.15 33.61 33.61

消融实验

组件消融(YOLOX+COCO, SAM-B/L/H, 4bit)

配置 SAM-B W4A4 SAM-L W4A4 SAM-H W4A4 说明
基线(PTQ4SAM-L) 18.4 31.6 37.6 基线
+ PAR 26.2 38.9 39.4 PAR 有效
+ PAR + PCC 30.3 39.0 39.9 PCC 进一步提升

DINO 检测器下相同趋势

配置 SAM-B W4A4 SAM-L W4A4 SAM-H W4A4
基线 14.4 36.6 43.9
+ PAR 30.2 46.1 47.4
+ PAR + PCC 33.8 46.3 47.4

关键发现

  • PCC 的语义裁剪远优于分布裁剪:网格搜索显示 [-1,1] 裁剪比 MSE 的 [-167,177] 提升 12.4%。分布保持不等于功能保持
  • PAR 在所有粒度水平都优于 QDrop:验证了图像-提示交互对量化重建的重要性
  • 阶段式 PAR 是效率-精度的最优平衡:比逐块或逐层学习都更优
  • PCC 对阈值 \(\theta\) 不敏感:在各种设定下均优于基线,生产环境中无需精细调参
  • 小模型受益更大:SAM-B 4-bit 的提升最为显著(+19.4% mAP),因为小模型对量化噪声更敏感
  • PCC 可作为正交技术:可叠加到 RepQ-ViT、QDrop 等现有方法上获得额外增益

亮点与洞察

  1. "大幅裁剪异常值反而有利"的发现颠覆直觉:传统认为应尽量保留激活范围,但 SAM 解码器的注意力异常值对语义功能无关紧要
  2. 注意力焦点 IoU 度量的设计精巧:将语义保持问题转化为集合重叠度计算,概念简洁且无需额外参数
  3. 将提示语义纳入量化重建打破了"局部重建"的惯例:SAM 的提示跟随特性要求量化过程也要尊重这一特性
  4. 层跳跃策略的附带发现有趣:各阶段输出的"不成熟"token 能产生不同粒度的合理分割,暗示编码器各阶段有明确的语义分工

局限与展望

  • 仅针对 PTQ 场景(后训练量化),未探索量化感知训练(QAT)
  • PCC 的网格搜索裁剪边界仍需一次校准过程
  • 层跳跃策略的阶段划分依赖模型架构(全局注意力层位置),不是自动化的
  • 未探索混合精度量化(不同层使用不同比特数)
  • 在 SAM 2 上的适配性未验证

相关工作与启发

  • 注意力焦点 IoU 度量可推广到其他注意力密集型模型的量化(如 DETR、ViT-det)
  • 提示感知重建思路可用于其他交互式模型(如 LISA、Grounding DINO)的量化
  • "语义对齐 > 分布对齐"的洞察具有方法论意义,可能推动量化领域的范式转变

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (PCC 和 PAR 两个创新点都有深刻洞察支撑,"语义对齐量化"的视角独特)
  • 实验充分度: ⭐⭐⭐⭐⭐ (三个任务、三种模型尺寸、多种检测器、完整消融和超参分析)
  • 写作质量: ⭐⭐⭐⭐⭐ (问题动机阐述清晰,现象-分析-解决方案的逻辑线完整流畅)
  • 价值: ⭐⭐⭐⭐⭐ (4-bit SAM-B 从不可用到可用的飞跃,对 SAM 部署有直接实用价值)

相关论文