SSR: Semantic and Spatial Rectification for CLIP-based Weakly Supervised Segmentation¶
会议: AAAI 2026
arXiv: 2512.01701
代码: 无
领域: 分割
关键词: 弱监督语义分割, CLIP, 跨模态原型对齐, 超像素引导校正, 类激活图
一句话总结¶
提出语义与空间双重校正框架SSR,通过跨模态原型对比学习(CMPA)解决CLIP模态间语义不对齐导致的非目标前景过度激活问题,以及超像素引导校正(SGC)解决仿射传播中背景过度激活问题,在PASCAL VOC和MS COCO上全面超越单阶段和多阶段SOTA方法。
研究背景与动机¶
弱监督语义分割(WSSS)旨在仅使用图像级标签生成高质量伪标签来训练分割模型,避免像素级标注的巨大成本。当前方法通常遵循三阶段流程:1)训练分类网络生成初始CAM;2)精炼CAM;3)生成伪标签训练分割模型。
近年来CLIP被广泛应用于WSSS,凭借其强大的跨模态语义理解能力和基于GradCAM的初始CAM生成,显著超越了传统CNN和ViT方案。然而CLIP仍面临两个核心挑战:
非目标前景区域的过度激活:源于CLIP固有的模态间隙(modality gap)。视觉特征关注低级模式(颜色、形状),文本特征关注高级抽象语义,导致语义不对齐。现有方法仅通过优化文本提示来改善,但未从根本上弥合跨模态表示差异。
背景区域的过度激活:在特征精炼过程中,背景区域与目标区域之间异常高的亲和值导致背景虚假响应。现有方法通过多阶段迭代优化或亲和矩阵约束来处理,但仍受限于低级特征干扰和全局上下文混淆。
这两个问题的根本原因分别在语义层面和空间层面,促使作者设计了双维度的协同建模方案。
方法详解¶
整体框架¶
SSR框架接收图像模态 \(I\) 和文本模态 \(T\) 作为输入,其中 \(T\) 包括 \(K\) 个前景类别和 \(M\) 个背景类别。框架包含两个核心模块: - 语义层面:跨模态原型对齐(CMPA),通过图像和文本原型间的对比学习减少模态间隙 - 空间层面:超像素引导校正(SGC),利用超像素空间先验过滤亲和矩阵中的噪声
关键设计¶
1. 跨模态原型对齐(CMPA)¶
核心思路:建立跨模态正负样本对的对比学习机制,同步优化模态对齐和分类边界。
多模态原型生成:对于 \(N\) 个图像-文本对,使用结构相同但参数独立的ISA和TSA模块分别投影视觉特征和文本特征到统一空间:
然后利用GradCAM生成 \(CAM_c\),通过掩码平均池化(MAP)计算前景图像特征和文本特征:
收集所有样本的前景特征后进行K-means聚类,得到图像原型 \(P^I \in \mathbb{R}^{K \times d_2}\) 和文本原型 \(P^T \in \mathbb{R}^{K \times d_2}\)。
原型对比学习:通过三重约束实现精细语义对齐:
- 视觉特征匹配同类文本原型
- 文本原型聚合同类视觉原型
- 不同类别的跨模态原型彼此分离
对比损失定义为:
其中温度超参数 \(\tau_{proto}\) 设为可学习参数。设计动机在于:ISA/TSA的投影空间既保留了CLIP的实例判别能力,又通过降维降低了原型构建成本。
2. 超像素引导校正(SGC)¶
核心思路:利用超像素结构信息构建二值掩码,选择性地屏蔽亲和矩阵中与非目标区域关联的列向量,抑制背景语义的错误传播。
超像素聚类:使用SLIC算法进行超像素分割(计算开销远低于SAM),然后基于颜色空间信息聚类得到目标区域:
计算每个聚类区域中高置信像素激活占比,超过阈值的为目标区域,构建二值掩码矩阵 \(Mask\)。
亲和矩阵校正:融合CLIP的全局语义与DINO的局部空间关系:
CLIP提供高级语义引导,DINO补充细粒度空间关系,融合后归一化。然后用掩码精炼亲和矩阵并增强初始CAM:
3. 端到端分割优化¶
整体训练目标结合原型对比损失和分割损失:
损失函数 / 训练策略¶
- \(\mathcal{L}_{proto}\):跨模态原型对比损失,鼓励同类跨模态特征靠近、异类远离
- \(\mathcal{L}_{seg}\):使用在线生成的伪掩码,采用交叉熵形式进行端到端训练
- 损失权重 \(\gamma = 0.1\),原型温度系数 \(\tau_{Proto} = 0.05\)
- 原型每5000次迭代更新一次
- CLIP:DINO权重比为0.4:0.6
实验关键数据¶
主实验¶
| 数据集 | 指标 | SSR | SSR (w/o CRF) | ExCEL | VPL | WeCLIP | MoRe |
|---|---|---|---|---|---|---|---|
| VOC Val | mIoU | 79.5 | 78.2 | 78.4 | 79.3 | 76.4 | 76.4 |
| VOC Test | mIoU | 79.6 | 78.1 | 78.5 | 79.0 | 77.2 | 75.0 |
| COCO Val | mIoU | 50.6 | 49.2 | 50.3 | 49.8 | 47.1 | 47.4 |
SSR作为单阶段方法,不仅超越所有单阶段方法,还超越了VPL等多阶段方法。VOC val上达到全监督性能的97.4%。
CAM种子质量方面,SSR在VOC train上取得78.7% mIoU,超越SOTA至少0.7%。
消融实验¶
| 配置 | P | R | mIoU | 说明 |
|---|---|---|---|---|
| 仅CMPA | 72.8 | 84.6 | 63.3 | 初始CAM |
| +CLIP注意力 | 85.2 | 88.9 | 74.6 | +11.3% |
| +DINO注意力 | 84.3 | 86.2 | 76.3 | DINO补充空间关系 |
| +SGC完整 | 87.9 | 89.1 | 78.7 | 掩码过滤进一步提升 |
损失函数消融(VOC train mIoU):
| 配置 | mIoU | 说明 |
|---|---|---|
| CLIP基线 | 58.6 | 原始 |
| +特征直接微调 | 53.5 | 下降5.1%,破坏CLIP能力 |
| +模态内对比 | 57.8 | 仅下降0.8%,但效果有限 |
| +跨模态对比 | 63.3 | 提升4.7%,有效弥合模态间隙 |
关键发现¶
- 跨模态对比学习比模态内对比和直接微调都更有效,验证了模态间隙是核心瓶颈
- CLIP和DINO注意力的融合互补性强,CLIP提供语义,DINO提供空间先验
- SGC的超像素掩码过滤能有效抑制背景虚假响应,精度和召回率同步提升
- SSR的mIoU达到全监督方法的97.4%,展示了弱监督分割的巨大潜力
亮点与洞察¶
- 问题剖析深刻:将CLIP-based WSSS的困境明确归因于语义层面的模态间隙和空间层面的仿射噪声,对症下药
- 跨模态原型设计精巧:在投影空间而非原始空间构建原型,既保留CLIP的判别能力又降低计算成本
- SLIC > SAM:在空间先验场景中选择轻量级SLIC而非重量级SAM,体现工程实用主义
- CLIP+DINO融合思路:利用两个预训练模型的互补性(全局语义 vs 局部空间),是多模型协同的典范
局限与展望¶
- SGC中的超像素参数(如SLIC的数量和紧凑度)可能需要对不同数据集进行调优
- 原型更新频率(每5000步)较粗糙,可考虑引入指数移动平均等更平滑的更新策略
- 依赖DINO注意力来补充空间信息,增加了模型依赖
- COCO上50.6%的mIoU仍有较大提升空间,多类别场景的复杂性需要进一步解决
相关工作与启发¶
- VPL(CVPR 2025):在视觉空间学习类别特定原型替代文本原型,思路与CMPA互补
- ExCEL(CVPR 2025):用LLM生成细粒度类别描述丰富文本提示,与CMPA的特征空间对齐形成对比
- CLIP-ES(CVPR 2023):SSR的文本提示设计参考了CLIP-ES的背景类别构造方式
- CMPA的跨模态对比学习思路可迁移到其他需要视觉-语言对齐的下游任务
评分¶
- 新颖性: ⭐⭐⭐⭐ (双维度校正框架设计合理,但对比学习和超像素引导并非全新概念)
- 实验充分度: ⭐⭐⭐⭐⭐ (VOC+COCO双数据集,多维度指标,充分消融)
- 写作质量: ⭐⭐⭐⭐ (图示清晰,动机阐述到位)
- 价值: ⭐⭐⭐⭐ (实现了弱监督分割接近全监督的水平,实际意义大)
相关论文¶
- [CVPR 2025] Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation
- [AAAI 2026] Target Refocusing via Attention Redistribution for Open-Vocabulary Semantic Segmentation: An Explainability Perspective
- [ICCV 2025] Know Your Attention Maps: Class-specific Token Masking for Weakly Supervised Semantic Segmentation
- [CVPR 2025] Soft Self-Labeling and Potts Relaxations for Weakly-Supervised Segmentation
- [CVPR 2026] Weakly-Supervised Referring Video Object Segmentation through Text Supervision