SANSA: Unleashing the Hidden Semantics in SAM2 for Few-Shot Segmentation¶

会议: NeurIPS 2025
arXiv: 2505.21795
代码: GitHub
领域: 图像分割
关键词: Few-Shot Segmentation, SAM2, semantic alignment, 特征适配, Memory Attention

一句话总结¶

SANSA 发现 SAM2 虽然以类别无关方式预训练，但其特征中隐含了丰富的语义结构；通过在冻结的 SAM2 Image Encoder 最后两层插入轻量 AdaptFormer 适配器，将 Memory Attention 机制从视觉相似性匹配重定向为语义相似性匹配，以统一架构实现了 few-shot 分割的 SOTA，同时比竞争方法快 3 倍以上、参数量小 4-5 倍。

研究背景与动机¶

Few-shot segmentation (FSS) 旨在仅凭少量标注样本分割未见类别。现有方法通常将 FSS 解耦为两阶段流水线：先用 DINOv2 做特征匹配找到语义对应关系，再用 SAM 生成高质量掩码。这种模块化设计虽然有效，但引入了额外的计算开销和多模型协调的复杂性。

作者观察到 SAM2 的 "prompt-and-propagate" 机制天然地统一了 FSS 所需的两大能力——密集特征匹配（通过 Memory Attention 跨帧建立对应关系）和高质量掩码生成（通过 Mask Decoder）。核心问题在于：SAM2 能否从视觉相似性追踪扩展到基于共享语义概念的"语义追踪"？

作者通过实验发现了一个关键现象：在语义差异较小的数据集（如肺部 X 光、皮肤病变）上，冻结的 SAM2 表现与 SOTA 方法相当甚至更好；但在语义差异大的数据集（如 COCO、LVIS）上，性能急剧下降。直觉上的结论是 SAM2 没有学到语义表示，但作者挑战了这一解读。他们注意到 SAM2 的预训练过程——跨帧匹配物体实例——与自监督学习框架有相似性，后者被证明能通过视图不变性诱导语义理解。因此作者假设：SAM2 确实编码了语义信息，但这些信息与面向追踪优化的实例级特征纠缠在一起。如果假设成立，则可以通过轻量瓶颈变换解开这种结构，并且在基类上学到的语义映射可以泛化到未见类别。

方法详解¶

整体框架¶

SANSA 将 FSS 重新解释为"在伪视频中追踪语义概念"。给定 \(K\) 个参考图像-掩码对和一个目标图像，将它们拼接成伪视频序列：

\[\mathcal{M} = [x_r^k, a_r^k]_{k=1}^K \cup [x_t, \varnothing]\]

利用 SAM2 的 streaming pipeline 顺序处理参考帧及其标注，通过 Memory Attention 将掩码从参考帧传播到未标注的目标帧，实现基于语义相似性的分割。

关键设计¶

从物体追踪到语义追踪的重定向：SAM2 的功能被概念性地分解为两部分——(a) 密集特征匹配：Memory Encoder 将参考掩码与帧特征融合为记忆表示 \(\mathcal{I}_r^k = \mathcal{F}_r^k + \text{conv\_down}(\hat{y}_r^k)\)，存入 Memory Bank，然后目标帧特征通过 Memory Attention 做交叉注意力建立密集对应：\(\mathcal{F}_{t,\text{match}} = \text{Attention}(Q(\mathcal{F}_t) K([\mathcal{I}_r^0,...,\mathcal{I}_r^k])^T) V([\mathcal{I}_r^0,...,\mathcal{I}_r^k])\)；(b) 高质量掩码生成：Mask Decoder 将粗糙的特征匹配结果精炼为分割输出。设计动机：参考帧编码进 Memory Bank 时不经过 Memory Attention，避免了交叉引用，保证了目标预测对参考图像顺序的不变性。
SAM2 特征适配 (AdaptFormer)：在冻结的 SAM2 Image Encoder 的最后两层插入 AdaptFormer 模块。给定下投影矩阵 \(\mathbf{W}_{down} \in \mathcal{R}^{d,\tilde{d}}\) 和上投影矩阵 \(\mathbf{W}_{up} \in \mathcal{R}^{\tilde{d},d}\)，AdaptFormer 以 token-wise 方式操作：\(\mathcal{A}(x) = \sigma(x \cdot \mathbf{W}_{down}) \cdot \mathbf{W}_{up}\)，其中 \(\sigma\) 为 ReLU，\(\tilde{d} < d\) 为瓶颈维度。适配后的特征以残差方式加入 Transformer 块：\(x' = \text{MLP}(x_\text{self}) + x_\text{self} + \mathcal{A}(x_\text{self})\)。设计动机：只训练投影矩阵（~10M参数），保持 SAM2 冻结以保留其预训练先验。选择最后两层是因为这些层编码了更高层的语义表示。实验证明过大容量的适配器（如更大瓶颈或 MONA）反而损害泛化性。
训练目标 — 伪参考帧自训练：采用 episodic training 范式，但创新性地反转标准 \(k\)-shot 设置：模型接收单个标注参考图像，负责将概念传播到多个未标注目标图像。训练片段为 \(\mathcal{M}_{train} = [x_r, a_r] \cup [x_t^j, \varnothing]_{j=1}^J\)。关键设计是将每个目标帧的预测表示 \(\mathcal{I}_t^j\) 也编码进 Memory Bank，使中间帧变成后续帧的伪参考。这一设计迫使模型从低层特征中解开语义信息，避免对单个图像对的过拟合。

损失函数 / 训练策略¶

使用 Binary Cross-Entropy loss 和 Dice loss 监督预测的 masklet \(\{\hat{y}_t^j\}_{j=1}^J\)
采用 AdamW 优化器，学习率 \(10^{-4}\)
严格 FSS 设置训练 5 epochs，泛化设置训练 20 epochs
训练时 \(k=1\)（单参考），序列长度 \(J=3\)，同一模型评估 1-shot 和 5-shot

实验关键数据¶

主实验¶

数据集	指标 (1-shot mIoU)	SANSA	之前SOTA	提升
LVIS-92i	1-shot mIoU	48.8	40.5 (SegIC)	+8.3
COCO-20i	1-shot mIoU	60.2	53.9 (VRP-SAM)	+6.3
FSS-1000	1-shot mIoU	91.4	90.2 (DiffewS)	+1.2
LVIS-92i	5-shot mIoU	53.9	43.7 (DiffewS)	+10.2
COCO-20i	5-shot mIoU	64.3	60.7 (DiffewS)	+3.6

消融实验¶

配置	COCO-20i mIoU	说明
Frozen SAM2	32.2	基线，无适配
Full Fine-tuning (224M)	51.6	全参数微调
QKV Fine-tuning (50M)	55.3	仅微调 QKV 投影
LoRA	58.0	适配方法
AdaptFormer (0.3× bottleneck)	60.2	SANSA (10M参数)
MONA (复杂适配)	56.9	过大容量损害泛化
适配 All stages (0-3)	59.4	全层适配
适配 Late stages (2-3)	60.2	最后两层足够

关键发现¶

SANSA 仅用 234M 参数，比 GF-SAM (945M) 快 3 倍以上，且在 LVIS-92i 上高出 13.6%
在可提示 FSS 中，点提示到掩码提示的性能下降仅 6.8%（VRP-SAM 为 15.5%）
在泛化实验 (In-Context) 中，即使不在部件级数据上训练，SANSA 也展现出跨任务泛化能力，在 Pascal-Part 上超越 DiffewS 7.5%
PCA 可视化清晰显示适配后特征形成了按语义类别聚类的结构，且这种语义组织能泛化到未见类别

亮点与洞察¶

核心洞察：SAM2 的类别无关预训练实际上隐含了丰富的语义结构，类似于自监督学习中通过视图不变性诱导的语义理解。这一发现挑战了 SAM2 "不具备语义理解能力" 的普遍看法
极简设计哲学：仅在最后两层插入最简单的 AdaptFormer，~10M 可训练参数就实现 SOTA，证明了"约束更强的适配反而更好"的原则
统一架构优势：不需要 DINOv2+SAM 的双模型流水线，单一 SAM2 架构同时完成特征匹配和掩码生成

局限与展望¶

在 5-shot COCO-20i 上相比 GF-SAM 仍有 -2.5% 的差距
基于 episodic training，可能受限于训练类别的多样性
适配器的泛化能力依赖于基类与目标类之间的语义关联程度

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次揭示并利用 SAM2 的隐含语义结构，视角独特
实验充分度: ⭐⭐⭐⭐⭐ LVIS/COCO/FSS-1000 全面评测，消融详尽，PCA 可视化有力
写作质量: ⭐⭐⭐⭐⭐ 问题引导式叙事（三个研究问题），逻辑清晰
价值: ⭐⭐⭐⭐⭐ 极简设计+SOTA性能+高效推理，实用价值极高