Exploring Simple Open-Vocabulary Semantic Segmentation¶

会议: CVPR 2025
arXiv: 2401.12217
代码: https://github.com/zlai0/S-Seg (有)
领域: 分割
关键词: 开放词汇分割, 伪掩码, MaskFormer, 图像-文本对, 自训练

一句话总结¶

本文提出 S-Seg，一个极简的开放词汇语义分割模型，不依赖 CLIP 预训练、不需要标注掩码、不使用定制分组编码器，仅用伪掩码（DINO K-Means 聚类）和图像-文本对比损失训练 MaskFormer，在 Pascal VOC、Pascal Context 和 COCO 上取得了与复杂方法相当的性能，自训练后平均 mIoU 提升 5.5%。

研究背景与动机¶

领域现状：开放词汇语义分割（OVS）目标是从任意文本类别中为每个像素分配语义标签。当前主流方法通常依赖三种策略的组合：(1) 基于 CLIP 等图像级视觉-语言模型进行适配；(2) 在标注掩码上训练以学习像素级特征；(3) 设计专门的分组编码器（如 GroupViT）将像素聚合为语义区域。

现有痛点：这三种策略各有缺陷——CLIP 适配方法继承了图像级模型在像素级任务上的局限性（MaskCLIP 分割噪声大）；依赖标注掩码限制了可扩展性；定制分组编码器增加了设计复杂度。更重要的是，没有人验证过是否可以完全不依赖这些策略也能做好 OVS。

核心矛盾：开放词汇分割的核心需求是像素级的视觉-语言对齐，但获取大规模像素级标注不现实。现有方法要么从图像级模型"下采样"对齐信号（信号损耗），要么在有限的标注类别上训练（泛化受限），要么设计复杂的分组机制（简洁性差）。

本文目标：证明一个极简方案——用伪掩码提供形状监督 + 用图像-文本对提供语义监督，直接训练标准 MaskFormer——就能在不使用 CLIP、标注掩码或定制编码器的情况下取得competitive的分割性能。

切入角度：作者观察到 DINO 的自监督 ViT 特征已经包含了很好的物体分割先验（通过 K-Means 聚类即可得到高质量伪掩码），而网络文本提供了覆盖长尾概念的语义监督。将这两种免费可获取的监督信号结合，就可以解耦掩码监督和语义监督来训练分割模型。

核心 idea：将开放词汇分割的监督解耦为掩码监督（来自 DINO 伪掩码）和语义监督（来自图像-文本对比学习），用这两种弱监督信号直接训练 MaskFormer 实现像素级特征与语言的对齐。

方法详解¶

整体框架¶

S-Seg 在训练时接受图像-文本对，图像通过 MaskFormer 预测 \(N\) 个掩码和对应的掩码特征；同时伪掩码生成器从图像生成 \(K\) 个伪掩码用于掩码预测的监督；文本通过语言模型编码为文本特征，与掩码特征的平均值进行对比学习。推理时，给定候选类别名列表，语言模型编码各类别特征，与掩码特征计算余弦相似度来分类每个掩码，最终组合产生语义分割图。

关键设计¶

基于 DINO 的伪掩码生成器:
- 功能：提供高质量的类别无关掩码监督，替代人工标注
- 核心思路：使用 DINO 预训练的 ViT-S/8 提取图像的 patch token 特征，然后对这些特征应用 K-Means 聚类（\(K=8\)），将每个 token 分配到一个聚类中，reshape 回图像尺寸得到伪掩码。预测的 \(N\) 个掩码与 \(K\) 个伪掩码通过二分匹配（bipartite matching）对齐，\(N-K\) 个未匹配的掩码不做惩罚
- 设计动机：DINO 的自监督学习产生的特征在物体边界处有自然的不连续性，K-Means 聚类能很好地捕获这一点。实验显示其 oracle 性能（78.8% VOC mIoU）远超 GroupViT（73.7%），且速度极快（128 样本仅需 0.002s）。不使用 ImageNet 监督的聚类（68.8%）或原始像素聚类（49.5%），确保了完全自监督
图像-文本对比学习的语义监督:
- 功能：学习掩码特征与语言的对齐，赋予模型开放词汇分类能力
- 核心思路：\(N\) 个掩码特征取平均作为图像全局表示，通过 2 层 MLP 投影到共享嵌入空间；文本通过 12 层 Transformer（从头训练）编码后取 [EOS] token 的嵌入，也投影到共享空间。使用标准的 CLIP 式双向对比损失 \(\mathcal{L}_{I \to T} + \mathcal{L}_{T \to I}\)，带可学习温度参数。跨 GPU 汇聚负样本以提高对比效率
- 设计动机：图像-文本对比学习是经过 CLIP 等大量工作验证的有效范式。S-Seg 直接在 MaskFormer 的掩码特征上做对比学习，使像素级特征天然与语言对齐，而非像 CLIP 那样只对齐图像级特征后再适配
自训练增强（S-Seg+）:
- 功能：利用测试域的未标注图像和类别信息进一步提升性能
- 核心思路：用训练好的 S-Seg 对目标数据集的训练集生成伪标签，然后用这些伪标签训练一个 UperNet（MAE 预训练 ViT 骨干）进行全监督语义分割。这一步利用了测试时可获得的两个信息：目标域的未标注图像和候选类别列表
- 设计动机：自训练利用了目标域的分布信息和类别先验，可以纠正 S-Seg 的一些预测错误。实验显示平均 mIoU 提升 5.5%（37.1% → 42.6%），且随训练数据规模增大持续改善

损失函数 / 训练策略¶

总损失为掩码损失和对比损失的加权和：\(L = \lambda_{mask}\mathcal{L}_{mask} + \lambda_{contrastive}\mathcal{L}_{contrastive}\)，其中 \(\mathcal{L}_{mask} = \lambda_{dice}\mathcal{L}_{dice} + \lambda_{focal}\mathcal{L}_{focal}\)。超参数为 \(\lambda_{mask} = 1.0, \lambda_{contrastive} = 1.0, \lambda_{dice} = 1.0, \lambda_{focal} = 20.0\)。使用 Swin-S 骨干、6 层 Transformer 解码器、\(N=64\) 查询；AdamW 优化器，基础学习率 \(5 \times 10^{-4}\)，batch size 4096，训练 30 个 epoch。训练数据使用 CC3M + CC12M + RedCaps（最多 26M 图像-文本对）。

实验关键数据¶

主实验（含背景类评估）¶

方法	监督类型	P. VOC	P. Context	COCO	3-Avg
CLIP	text	13.5	8.1	5.9	9.2
MaskCLIP	text	26.8	22.8	12.8	20.8
GroupViT	text	50.8	23.7	27.5	34.0
SegCLIP	text	52.6	24.7	26.5	34.6
TCL	text	55.0	30.4	—	—
S-Seg	text	53.2	27.9	30.3	37.1
S-Seg+	text	62.0	30.2	35.7	42.6

消融实验——数据规模与自训练¶

数据	S-Seg VOC	S-Seg Ctx	S-Seg COCO	S-Seg+ VOC	S-Seg+ COCO
12M	44.9	22.9	22.5	53.1	26.2
15M	45.1	23.8	27.9	54.2	28.0
26M	53.2	27.9	30.3	62.0	35.7

关键发现¶

不依赖 CLIP 也能做好 OVS：S-Seg 从头训练文本编码器和 MaskFormer，不使用任何预训练 VL 模型，依然取得了competitive的性能
简单基线不可行：伪掩码+CLIP 分类（6.6% avg）和伪掩码 ViT（14.9% avg）都远不如 S-Seg（30.1% avg），说明多任务联合学习至关重要
数据可扩展性好：从 12M 到 26M，S-Seg 在 VOC 上提升 +8.3%，说明方法能充分利用更多数据
自训练稳定有效：在所有数据量和数据集设定下，自训练都带来了一致的提升（平均 +5.5%）
在去除背景类的评估下，S-Seg (81.8% VOC) 已超过早期需要标注掩码的方法 ZegFormer (80.7%)

亮点与洞察¶

"极简主义"的研究哲学很有价值：在领域越来越复杂的趋势下，S-Seg 通过去除所有"必需"组件（CLIP、GT 掩码、定制编码器），逆向验证了什么是真正必要的。结论是：伪掩码 + 语言监督 + 标准架构就够了
监督信号解耦的思想巧妙：将掩码预测的监督（来自伪掩码）和语义分类的监督（来自文本）完全解耦，使得两种监督可以独立扩展。这与传统的"掩码+类别标签"耦合监督形成鲜明对比
伪掩码生成器的质量出乎意料地好：DINO K-Means 聚类在 VOC 上达到 78.8% oracle mIoU，甚至超过了经过 VL 训练的 GroupViT (73.7%)，这个发现很有启发性

局限与展望¶

在 COCO（81 类）上性能明显低于 VOC（21 类），说明类别数量增多对方法挑战较大
伪掩码生成器对小物体和纹理丰富的场景可能不够准确
自训练虽然有效但引入了额外的训练流程和对目标域的依赖
语言模型从头训练的规模有限（12 层），更大的预训练语言模型可能带来更好的语义理解
可以考虑结合扩散模型生成更多样的伪掩码，或使用 SAM 替代 DINO 聚类作为伪掩码源

评分¶

新颖性: ⭐⭐⭐⭐ 思路新颖但各组件（伪掩码、对比学习、MaskFormer）都是现有技术
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、多种评估协议、与 16+ 方法对比、数据规模消融、简单基线验证
写作质量: ⭐⭐⭐⭐ 论文组织清晰，简单基线分析很有说服力
价值: ⭐⭐⭐⭐ 为开放词汇分割确立了一个strong yet simple的基线