SAQ-SAM: Semantically-Aligned Quantization for Segment Anything Model¶

会议: AAAI 2026
arXiv: 2503.06515
代码: https://github.com/jingjing0419/SAQ-SAM
领域: 分割
关键词: SAM, 后训练量化, 语义对齐, 注意力感知, 模型压缩

一句话总结¶

提出 SAQ-SAM，从语义对齐视角改进 SAM 的后训练量化（PTQ），通过感知一致性裁剪（PCC）处理掩码解码器中的极端异常值，并用提示感知重建（PAR）保持图像-提示交互的语义对齐。

研究背景与动机¶

SAM 模型具有强大的零样本分割能力，但其参数量大、计算开销高，难以在边缘设备上部署。后训练量化（PTQ）是一种高效的压缩方案，仅需少量未标注数据即可校准量化参数。然而，直接将现有 PTQ 方法应用于 SAM 面临两大独特挑战：

挑战一：掩码解码器的极端异常值¶

SAM 掩码解码器的 QK 激活存在极端异常值分布：大部分数据集中在狭窄范围（如 [-1, 1]），而异常值可超过正常范围的 180 倍（如 [-167, 177]）。作者发现了一个关键现象：大幅度裁剪这些异常值对分割性能几乎没有影响。例如，将 [-167, 177] 裁剪到 [-1, 1]，分割性能不降反升。

但传统的基于分布的度量（如 MSE）无法提供如此大尺度的裁剪——MSE 会给出过宽的裁剪范围来保留异常值，导致量化分辨率不足。这是因为分布对齐 ≠ 语义对齐：保持分布一致并不能保证注意力的语义功能一致。

挑战二：量化重建忽略提示语义¶

现有量化重建方法（如 BRECQ、QDrop）仅在编码器内部逐块最小化全精度模型的响应误差。但 SAM 的核心特性是提示跟随：图像嵌入需要在掩码解码器中与提示嵌入交互。局部重建纯图像特征忽略了提示意图，可能引入干扰图像-提示交互的冗余信息。

核心洞察：量化中的语义失配是低比特量化的主要瓶颈，需要从分布对齐升级到语义对齐。

方法详解¶

整体框架¶

SAQ-SAM 包含两大核心技术：

感知一致性裁剪（PCC）：用于掩码解码器 QK 激活的异常值处理——利用注意力焦点重叠度作为语义度量来指导裁剪
提示感知重建（PAR）：用于图像编码器的量化参数学习——将图像-提示交互纳入重建过程

关键设计¶

1. 感知一致性裁剪（PCC）¶

注意力焦点重叠度度量：定义高关注区域为"注意力焦点"，通过阈值因子 \(\theta\) 过滤显著注意力值，生成二值化注意力焦点掩码：

\[M_A = \mathbf{1}\{A_w > \theta \cdot \max(A_w)\} \in \mathbb{R}^{N_q \times N_k}\]

然后计算量化前后注意力焦点掩码的 IoU：

\[\text{IoU}_{AF}(A_w, \hat{A}_w) = \frac{|M_A \cap \hat{M}_A|}{|M_A \cup \hat{M}_A|}\]

PCC 的距离函数：\(\text{Dist}_{pcc} = 1 - \text{IoU}_{AF}(A_w, \hat{A}_w)\)

利用此度量确定 QK 激活的最优裁剪边界 \(x_{low}\) 和 \(x_{up}\)。

设计动机： - 注意力机制的本质是捕获语义信息——分配更多关注给任务相关区域。因此用注意力焦点重叠度代替分布匹配来衡量量化质量，是在语义层面保持一致性 - 此度量与幅度无关：即使异常值被大幅裁剪（[-167,177] → [-1,1]），只要注意力焦点分布不变，就认为语义被保持 - 实验证明 \(\theta = 0.5\) 对性能鲁棒（图6a），PCC 在所有 \(\theta\) 设定下均优于基线

2. 提示感知重建（PAR）¶

交互响应重建：利用 SAM 掩码解码器中的现成交叉注意力模块（Two-Way Transformer）将提示信息纳入图像 token：

\[T_{ip}^k = \text{TwoWayTransformer}(T_i^k, T_p)\]

其中 \(T_p\) 是提示编码器编码的提示 token，\(T_i^k\) 是第 \(k\) 阶段输出的图像 token。然后最小化混合 token 与全精度响应的 L2 距离：

\[\min_{s,z,\alpha} \|{\hat{T}}_{ip}^k - T_{ip}^k\|_2^2\]

设计动机：通过重建混合图像 token（而非纯图像 token），量化模型在学习过程中保持了视觉特征与提示意图的对应关系。这不仅对齐了分布，还在语义层面实现了对齐。

层跳跃策略：将编码器按全局注意力层为边界划分为多个阶段（如 SAM-B 中 L0-L2 为阶段 0），每个阶段的输出跳过后续层直接进入 Neck 参与交互：

\[T_i^k = \text{Neck}\left(\left(\prod_{i=0}^k \text{Stage}^k\right)(E_i)\right)\]

设计动机：（1）避免完整前向传播的高计算开销；（2）跳过深层后保留了各阶段不同粒度的语义信息；（3）实验证明早期阶段的"不成熟"token 也能产生合理分割结果（图5），说明层跳跃设计可行。

3. 阶段划分学习¶

以全局注意力层为边界将 Transformer 层划分为多阶段，每阶段内联合优化量化参数。这比逐块学习更能捕获块间权重相关性。PAR 的阶段式学习总迭代次数远低于基线 PTQ4SAM（后者使用逐块学习 20000 次迭代），计算效率更高。

损失函数 / 训练策略¶

PCC：使用注意力焦点 IoU 作为裁剪度量，仅需第一个样本校准
PAR：L2 重建损失，编码器采用阶段式学习，解码器采用逐层学习（2000 迭代），最后一个交叉注意力块 10000 迭代
校准集：32 张随机采样的训练图像
量化方案：激活使用逐张量非对称量化，权重使用逐通道非对称量化

实验关键数据¶

主实验¶

实例分割（COCO, DINO 检测器）：

方法	类型	SAM-B 6/6	SAM-B 4/4	SAM-L 6/6	SAM-L 4/4	SAM-H 6/6	SAM-H 4/4
MinMax	统计	11.2	-	44.7	-	42.8	-
PTQ4SAM-S	统计	20.4	-	47.7	23.1	48.1	30.5
SAQ-SAM★	统计	39.4	3.5	48.0	27.8	48.2	31.6
QDrop	学习	38.9	11.2	47.5	27.5	48.3	41.7
PTQ4SAM-L	学习	40.4	14.4	48.3	36.6	48.7	43.9
SAQ-SAM	学习	42.4	33.8	48.3	46.3	48.9	47.4
FP	-	44.5	44.5	48.6	48.6	49.1	49.1

4-bit SAM-B 提升：PTQ4SAM-L 14.4% → SAQ-SAM 33.8%（+19.4%）；4-bit SAM-L 近无损（46.3% vs FP 48.6%）

语义分割（ADE20K）：

方法	SAM-B 6/6	SAM-B 4/4	SAM-L 6/6	SAM-L 4/4
PTQ4SAM-L	32.65	31.85	33.66	32.82
SAQ-SAM	33.04	32.53	33.63	33.30
FP	33.15	33.15	33.61	33.61

消融实验¶

组件消融（YOLOX+COCO, SAM-B/L/H, 4bit）：

配置	SAM-B W4A4	SAM-L W4A4	SAM-H W4A4	说明
基线（PTQ4SAM-L）	18.4	31.6	37.6	基线
+ PAR	26.2	38.9	39.4	PAR 有效
+ PAR + PCC	30.3	39.0	39.9	PCC 进一步提升

DINO 检测器下相同趋势：

配置	SAM-B W4A4	SAM-L W4A4	SAM-H W4A4
基线	14.4	36.6	43.9
+ PAR	30.2	46.1	47.4
+ PAR + PCC	33.8	46.3	47.4

关键发现¶

PCC 的语义裁剪远优于分布裁剪：网格搜索显示 [-1,1] 裁剪比 MSE 的 [-167,177] 提升 12.4%。分布保持不等于功能保持
PAR 在所有粒度水平都优于 QDrop：验证了图像-提示交互对量化重建的重要性
阶段式 PAR 是效率-精度的最优平衡：比逐块或逐层学习都更优
PCC 对阈值 \(\theta\) 不敏感：在各种设定下均优于基线，生产环境中无需精细调参
小模型受益更大：SAM-B 4-bit 的提升最为显著（+19.4% mAP），因为小模型对量化噪声更敏感
PCC 可作为正交技术：可叠加到 RepQ-ViT、QDrop 等现有方法上获得额外增益

亮点与洞察¶

"大幅裁剪异常值反而有利"的发现颠覆直觉：传统认为应尽量保留激活范围，但 SAM 解码器的注意力异常值对语义功能无关紧要
注意力焦点 IoU 度量的设计精巧：将语义保持问题转化为集合重叠度计算，概念简洁且无需额外参数
将提示语义纳入量化重建打破了"局部重建"的惯例：SAM 的提示跟随特性要求量化过程也要尊重这一特性
层跳跃策略的附带发现有趣：各阶段输出的"不成熟"token 能产生不同粒度的合理分割，暗示编码器各阶段有明确的语义分工

局限与展望¶

仅针对 PTQ 场景（后训练量化），未探索量化感知训练（QAT）
PCC 的网格搜索裁剪边界仍需一次校准过程
层跳跃策略的阶段划分依赖模型架构（全局注意力层位置），不是自动化的
未探索混合精度量化（不同层使用不同比特数）
在 SAM 2 上的适配性未验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ （PCC 和 PAR 两个创新点都有深刻洞察支撑，"语义对齐量化"的视角独特）
实验充分度: ⭐⭐⭐⭐⭐ （三个任务、三种模型尺寸、多种检测器、完整消融和超参分析）
写作质量: ⭐⭐⭐⭐⭐ （问题动机阐述清晰，现象-分析-解决方案的逻辑线完整流畅）
价值: ⭐⭐⭐⭐⭐ （4-bit SAM-B 从不可用到可用的飞跃，对 SAM 部署有直接实用价值）