Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation¶
会议: CVPR 2025
arXiv: 2412.04533
代码: https://github.com/hustvl/MaskAdapter
领域: 分割
关键词: 开放词汇分割, CLIP, mask pooling, 语义激活图, SAM
一句话总结¶
揭示了开放词汇分割中 mask pooling 方法的性能上界瓶颈——精确 mask 往往无法获得准确分类,提出 Mask-Adapter 从 proposal mask 和 CLIP 特征中提取语义激活图来替代直接 mask pooling,以即插即用方式显著提升多种 OVS 方法的分类准确率。
研究背景与动机¶
开放词汇分割(OVS)的主流范式是"分割-识别"——先生成 class-agnostic mask,再用 CLIP 对 mask 区域进行分类。分类的关键在于如何从 mask 提取嵌入:
- Mask Cropping 方法将分割区域裁剪后送入 CLIP,但裁剪后的图像与 CLIP 预训练时的自然图像差异大
- Mask Pooling 方法用 proposal mask 直接聚合 CLIP 特征,更高效但仅传递位置信息,缺乏语义细节和上下文
- 反直觉的实验发现:即使使用 ADE20K 的 ground-truth mask,mask cropping 和 mask pooling 的分类上界也很有限(仅约 47-51%),远未饱和
- 核心瓶颈:mask 与 CLIP 特征之间存在根本性的对齐缺失——mask 只告诉"在哪里",却不告诉 CLIP"关注什么"
核心动机:设计一个轻量级适配器,从 mask 和 CLIP 特征中学习语义激活图,不仅聚合 mask 内的区域信息,还纳入上下文信息,打破 OVS 的分类上界。
方法详解¶
整体框架¶
Mask-Adapter 作为即插即用模块插入任何基于 mask pooling 的 OVS 方法中。输入为 N 个 class-agnostic proposal mask 和 CLIP 视觉特征,输出为增强的 mask 嵌入,与文本嵌入匹配完成分类。训练时仅更新 Mask-Adapter 参数,CLIP 完全冻结。
关键设计¶
-
语义激活图提取:
- 功能:从 proposal mask 和 CLIP 特征中生成"该关注哪里"的语义权重图,替代简单的 binary mask 聚合
- 核心思路:将 binary mask 通过两个 strided \(3 \times 3\) 卷积 patchify 到与 CLIP 特征同尺寸的 mask 特征 \(\mathcal{F}_m\),与 CLIP 特征 \(\mathcal{F}_{clip}\) 相加融合,经过 3 个 ConvNeXt block 增强语义后,通过最终卷积层生成 \(K\) 个语义激活图 \(\mathbf{A}\)。归一化后的激活图与 CLIP 特征做加权聚合,取 \(K\) 个结果的均值作为最终 mask 嵌入:\(E_m = \frac{1}{K}\sum_{k=1}^K \bar{\mathbf{A}}_k \cdot \mathcal{F}_{clip}^T\)
- 设计动机:与 mask pooling 只聚合目标区域不同,语义激活图可以选择性地高亮识别相关区域、抑制无关区域,同时包含背景上下文——这对区分语义相似但上下文不同的物体至关重要
-
IoU-based Matcher + Mask 一致性损失:
- 功能:增强 Mask-Adapter 对不同质量 mask 的鲁棒性,防止过拟合
- 核心思路:替换 Hungarian matcher 为 IoU-based matcher——选择所有 IoU 超过阈值的 GT-pred mask 对进行训练(一对多),提供更多样的训练样本。同时引入 mask 一致性损失:对匹配的 GT mask 和预测 mask 分别送入 Mask-Adapter 获取嵌入 \(e^{gt}\) 和 \(e^{pred}\),最小化它们的余弦距离 \(\mathcal{L}_{cos} = 1 - \sigma_{cos}(e^{gt}, e^{pred})\)
- 设计动机:Hungarian matcher 是一对一匹配,使得多个与同一物体高 IoU 的预测 mask 中仅一个参与训练,错过大量有价值的负样本;一致性损失使相似 IoU 的 mask 获得相似 CLIP 嵌入
-
稳定的 Mask-Text 对齐训练策略:
- 功能:确保训练稳定性并保持 CLIP 的开放词汇泛化能力
- 核心思路:两阶段训练——(1) Ground-truth mask warmup(仅用 GT mask 训练,建立基础泛化能力),(2) Mixed-mask training(混合 GT mask 和来自 IoU-based matcher 的预测 mask 训练,增加低质量 mask 和误分类样本)。总损失为 \(\mathcal{L} = \lambda_{ce} \cdot \mathcal{L}_{ce} + \lambda_{cos} \cdot \mathcal{L}_{cos}\)
- 设计动机:直接用预测 mask 训练会导致过拟合和不稳定(低质量 mask 太多);GT warmup 保证初始稳定性,混合训练增强对真实推理场景的适应性
损失函数¶
- 交叉熵损失 \(\mathcal{L}_{ce}\):mask 分类
- 余弦一致性损失 \(\mathcal{L}_{cos}\):约束相似 mask 获得相似嵌入
- 总损失:\(\mathcal{L} = \lambda_{ce} \cdot \mathcal{L}_{ce} + \lambda_{cos} \cdot \mathcal{L}_{cos}\)
实验关键数据¶
主实验(开放词汇语义分割 mIoU)¶
| 方法 | VLM | A-150 | A-847 | PC-59 | PC-459 | PAS-20 |
|---|---|---|---|---|---|---|
| FC-CLIP | ConvNeXt-L | 34.1 | 14.8 | 58.4 | 18.2 | 95.4 |
| FC-CLIP + Mask-Adapter | ConvNeXt-L | 36.6 | 14.1 | 59.7 | 19.3 | 95.5 |
| MAFTP | ConvNeXt-L | 36.3 | 15.5 | 59.5 | 21.2 | 96.4 |
| MAFTP + Mask-Adapter | ConvNeXt-L | 38.2 | 16.2 | 60.4 | 22.7 | 95.8 |
| CAT-Seg | ViT-L/14 | 37.9 | 16.0 | 63.3 | 23.8 | 97.0 |
消融实验(ADE20K, 无 ensemble)¶
| 方法 | mIoUs | mIoUu | mIoU |
|---|---|---|---|
| Mask2Former + CLIP | 34.8 | 17.5 | 26.0 |
| Mask2Former + Ours | 45.3 (+10.5) | 21.8 (+4.3) | 33.4 (+7.4) |
| FC-CLIP | 34.6 | 18.6 | 26.5 |
| FC-CLIP + Ours | 46.2 (+11.6) | 24.8 (+6.2) | 35.4 (+8.9) |
上界分析(GT mask 分类准确率)¶
| 方法 | ADE20K A-150 |
|---|---|
| Mask Cropping | ~47% |
| Mask Pooling | ~51% |
| Mask-Adapter | ~69% |
关键发现¶
- Mask-Adapter 将 GT mask 分类上界从约 51% 提升到约 69%,证实了 mask-CLIP 对齐是核心瓶颈
- 在 FC-CLIP 上提升 +2.5 mIoU(A-150),在 MAFTP 上提升 +1.9 mIoU(A-150),一致有效
- 无 ensemble 的消融中,seen 类提升更大(+10-11 mIoU),unseen 类也有 +4-6 mIoU 的提升
- 可无训练扩展到 SAM,在多个 OVS 基准上取得可观结果
- IoU-based matcher 和 mask 一致性损失各贡献约 0.5-1.0 mIoU
亮点与洞察¶
- 问题定位精准:通过 GT mask 上界实验清晰揭示了"精确 mask ≠ 准确分类"这一长期被忽视的问题
- 语义激活图 vs mask pooling:本质区别在于语义激活图会利用整幅图的上下文信息(而非仅 mask 内),且选择性高亮识别相关区域——这与人类识别物体时利用上下文的行为一致
- 即插即用设计优雅:仅需在现有方法的 mask pooling 步骤后插入一个轻量模块,不修改骨干网络
- 一致性损失的几何直觉:在嵌入空间为未见类保留更多空间,相似 mask 聚拢减少已见类的空间占用
局限与展望¶
- 在 A-847(847 类细粒度)上的提升不如 A-150 明显,极细粒度分类仍是挑战
- 训练仅在 COCO 上进行,泛化到更多领域的表现有待验证
- ConvNeXt block 数量和语义激活图数量 \(K\) 的选择缺少充分消融
- 未探索与 per-pixel 方法(如 CAT-Seg)结合的可能性
- Mask-Adapter 的参数量和推理开销未详细讨论
相关工作与启发¶
- 与 Deop 的区别:Deop 用 heatmap decoder 从图像特征和 mask 生成热力图,而 Mask-Adapter 从 proposal mask 本身提取语义激活图,保留更多 mask 上下文信息,且可即插即用
- 与 MAFT/MAFTP 的互补性:MAFTP 微调 CLIP 编码器和文本表示,Mask-Adapter 改进 mask 嵌入提取,二者组合取得最优结果
- 启发:OVS 的瓶颈不在 mask 生成质量,而在 mask-to-CLIP 的嵌入对齐——这一洞察可能改变后续研究的重心
评分¶
- 新颖性: ⭐⭐⭐⭐ 上界分析清晰定位问题,语义激活图替代 mask pooling 的思路有效但不算颠覆性
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 5 个基准、多种 baseline 方法、SAM 扩展、详细消融和上界分析
- 写作质量: ⭐⭐⭐⭐ 逻辑链条清晰,可视化对比直观,但公式较多
- 价值: ⭐⭐⭐⭐ 即插即用提升明显,对 OVS 社区的 mask 分类瓶颈提供了实用解决方案
相关论文¶
- [CVPR 2025] Effective SAM Combination for Open-Vocabulary Semantic Segmentation
- [CVPR 2025] DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
- [CVPR 2025] DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation
- [CVPR 2025] Exploring Simple Open-Vocabulary Semantic Segmentation
- [CVPR 2025] Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation