跳转至

SSR: Semantic and Spatial Rectification for CLIP-based Weakly Supervised Segmentation

会议: AAAI 2026
arXiv: 2512.01701
代码: 无
领域: 分割
关键词: 弱监督语义分割, CLIP, 跨模态原型对齐, 超像素引导校正, 类激活图

一句话总结

提出语义与空间双重校正框架SSR,通过跨模态原型对比学习(CMPA)解决CLIP模态间语义不对齐导致的非目标前景过度激活问题,以及超像素引导校正(SGC)解决仿射传播中背景过度激活问题,在PASCAL VOC和MS COCO上全面超越单阶段和多阶段SOTA方法。

研究背景与动机

弱监督语义分割(WSSS)旨在仅使用图像级标签生成高质量伪标签来训练分割模型,避免像素级标注的巨大成本。当前方法通常遵循三阶段流程:1)训练分类网络生成初始CAM;2)精炼CAM;3)生成伪标签训练分割模型。

近年来CLIP被广泛应用于WSSS,凭借其强大的跨模态语义理解能力和基于GradCAM的初始CAM生成,显著超越了传统CNN和ViT方案。然而CLIP仍面临两个核心挑战

非目标前景区域的过度激活:源于CLIP固有的模态间隙(modality gap)。视觉特征关注低级模式(颜色、形状),文本特征关注高级抽象语义,导致语义不对齐。现有方法仅通过优化文本提示来改善,但未从根本上弥合跨模态表示差异。

背景区域的过度激活:在特征精炼过程中,背景区域与目标区域之间异常高的亲和值导致背景虚假响应。现有方法通过多阶段迭代优化或亲和矩阵约束来处理,但仍受限于低级特征干扰和全局上下文混淆。

这两个问题的根本原因分别在语义层面和空间层面,促使作者设计了双维度的协同建模方案。

方法详解

整体框架

SSR框架接收图像模态 \(I\) 和文本模态 \(T\) 作为输入,其中 \(T\) 包括 \(K\) 个前景类别和 \(M\) 个背景类别。框架包含两个核心模块: - 语义层面:跨模态原型对齐(CMPA),通过图像和文本原型间的对比学习减少模态间隙 - 空间层面:超像素引导校正(SGC),利用超像素空间先验过滤亲和矩阵中的噪声

关键设计

1. 跨模态原型对齐(CMPA)

核心思路:建立跨模态正负样本对的对比学习机制,同步优化模态对齐和分类边界。

多模态原型生成:对于 \(N\) 个图像-文本对,使用结构相同但参数独立的ISA和TSA模块分别投影视觉特征和文本特征到统一空间:

\[v_i' = \text{ISA}(v_i), \quad t_i' = \text{TSA}(t_i)\]

然后利用GradCAM生成 \(CAM_c\),通过掩码平均池化(MAP)计算前景图像特征和文本特征:

\[f_{image} = MAP(CAM^c \odot v_i'), \quad f_{text} = t_i'[index]\]

收集所有样本的前景特征后进行K-means聚类,得到图像原型 \(P^I \in \mathbb{R}^{K \times d_2}\) 和文本原型 \(P^T \in \mathbb{R}^{K \times d_2}\)

原型对比学习:通过三重约束实现精细语义对齐: - 视觉特征匹配同类文本原型 - 文本原型聚合同类视觉原型
- 不同类别的跨模态原型彼此分离

对比损失定义为:

\[\mathcal{L}_{proto} = -\frac{1}{N}\sum_{i=1}^{N}\log\frac{\exp(S_{pos}^i)}{\exp(S_{pos}^i) + \sum_{j=1}^{k}\exp(S_{neg_j}^i)}\]

其中温度超参数 \(\tau_{proto}\) 设为可学习参数。设计动机在于:ISA/TSA的投影空间既保留了CLIP的实例判别能力,又通过降维降低了原型构建成本。

2. 超像素引导校正(SGC)

核心思路:利用超像素结构信息构建二值掩码,选择性地屏蔽亲和矩阵中与非目标区域关联的列向量,抑制背景语义的错误传播。

超像素聚类:使用SLIC算法进行超像素分割(计算开销远低于SAM),然后基于颜色空间信息聚类得到目标区域:

\[C = \text{K-means}(\text{SLIC}(I_i))\]

计算每个聚类区域中高置信像素激活占比,超过阈值的为目标区域,构建二值掩码矩阵 \(Mask\)

亲和矩阵校正:融合CLIP的全局语义与DINO的局部空间关系:

\[A = ConCat(MHSA_{CLIP}, MHSA_{DINO})\]

CLIP提供高级语义引导,DINO补充细粒度空间关系,融合后归一化。然后用掩码精炼亲和矩阵并增强初始CAM:

\[A^* = A \odot Mask, \quad CAM_{refine}^c = A^* \otimes CAM^c\]

3. 端到端分割优化

整体训练目标结合原型对比损失和分割损失:

损失函数 / 训练策略

\[\mathcal{L}_{SSR} = \mathcal{L}_{proto} + \gamma \mathcal{L}_{seg}\]
  • \(\mathcal{L}_{proto}\):跨模态原型对比损失,鼓励同类跨模态特征靠近、异类远离
  • \(\mathcal{L}_{seg}\):使用在线生成的伪掩码,采用交叉熵形式进行端到端训练
  • 损失权重 \(\gamma = 0.1\),原型温度系数 \(\tau_{Proto} = 0.05\)
  • 原型每5000次迭代更新一次
  • CLIP:DINO权重比为0.4:0.6

实验关键数据

主实验

数据集 指标 SSR SSR (w/o CRF) ExCEL VPL WeCLIP MoRe
VOC Val mIoU 79.5 78.2 78.4 79.3 76.4 76.4
VOC Test mIoU 79.6 78.1 78.5 79.0 77.2 75.0
COCO Val mIoU 50.6 49.2 50.3 49.8 47.1 47.4

SSR作为单阶段方法,不仅超越所有单阶段方法,还超越了VPL等多阶段方法。VOC val上达到全监督性能的97.4%。

CAM种子质量方面,SSR在VOC train上取得78.7% mIoU,超越SOTA至少0.7%。

消融实验

配置 P R mIoU 说明
仅CMPA 72.8 84.6 63.3 初始CAM
+CLIP注意力 85.2 88.9 74.6 +11.3%
+DINO注意力 84.3 86.2 76.3 DINO补充空间关系
+SGC完整 87.9 89.1 78.7 掩码过滤进一步提升

损失函数消融(VOC train mIoU):

配置 mIoU 说明
CLIP基线 58.6 原始
+特征直接微调 53.5 下降5.1%,破坏CLIP能力
+模态内对比 57.8 仅下降0.8%,但效果有限
+跨模态对比 63.3 提升4.7%,有效弥合模态间隙

关键发现

  1. 跨模态对比学习比模态内对比和直接微调都更有效,验证了模态间隙是核心瓶颈
  2. CLIP和DINO注意力的融合互补性强,CLIP提供语义,DINO提供空间先验
  3. SGC的超像素掩码过滤能有效抑制背景虚假响应,精度和召回率同步提升
  4. SSR的mIoU达到全监督方法的97.4%,展示了弱监督分割的巨大潜力

亮点与洞察

  1. 问题剖析深刻:将CLIP-based WSSS的困境明确归因于语义层面的模态间隙和空间层面的仿射噪声,对症下药
  2. 跨模态原型设计精巧:在投影空间而非原始空间构建原型,既保留CLIP的判别能力又降低计算成本
  3. SLIC > SAM:在空间先验场景中选择轻量级SLIC而非重量级SAM,体现工程实用主义
  4. CLIP+DINO融合思路:利用两个预训练模型的互补性(全局语义 vs 局部空间),是多模型协同的典范

局限与展望

  1. SGC中的超像素参数(如SLIC的数量和紧凑度)可能需要对不同数据集进行调优
  2. 原型更新频率(每5000步)较粗糙,可考虑引入指数移动平均等更平滑的更新策略
  3. 依赖DINO注意力来补充空间信息,增加了模型依赖
  4. COCO上50.6%的mIoU仍有较大提升空间,多类别场景的复杂性需要进一步解决

相关工作与启发

  • VPL(CVPR 2025):在视觉空间学习类别特定原型替代文本原型,思路与CMPA互补
  • ExCEL(CVPR 2025):用LLM生成细粒度类别描述丰富文本提示,与CMPA的特征空间对齐形成对比
  • CLIP-ES(CVPR 2023):SSR的文本提示设计参考了CLIP-ES的背景类别构造方式
  • CMPA的跨模态对比学习思路可迁移到其他需要视觉-语言对齐的下游任务

评分

  • 新颖性: ⭐⭐⭐⭐ (双维度校正框架设计合理,但对比学习和超像素引导并非全新概念)
  • 实验充分度: ⭐⭐⭐⭐⭐ (VOC+COCO双数据集,多维度指标,充分消融)
  • 写作质量: ⭐⭐⭐⭐ (图示清晰,动机阐述到位)
  • 价值: ⭐⭐⭐⭐ (实现了弱监督分割接近全监督的水平,实际意义大)

相关论文