跳转至

Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation

会议: CVPR 2025
arXiv: 2412.04533
代码: https://github.com/hustvl/MaskAdapter
领域: 分割
关键词: 开放词汇分割, CLIP, mask pooling, 语义激活图, SAM

一句话总结

揭示了开放词汇分割中 mask pooling 方法的性能上界瓶颈——精确 mask 往往无法获得准确分类,提出 Mask-Adapter 从 proposal mask 和 CLIP 特征中提取语义激活图来替代直接 mask pooling,以即插即用方式显著提升多种 OVS 方法的分类准确率。

研究背景与动机

开放词汇分割(OVS)的主流范式是"分割-识别"——先生成 class-agnostic mask,再用 CLIP 对 mask 区域进行分类。分类的关键在于如何从 mask 提取嵌入:

  • Mask Cropping 方法将分割区域裁剪后送入 CLIP,但裁剪后的图像与 CLIP 预训练时的自然图像差异大
  • Mask Pooling 方法用 proposal mask 直接聚合 CLIP 特征,更高效但仅传递位置信息,缺乏语义细节和上下文
  • 反直觉的实验发现:即使使用 ADE20K 的 ground-truth mask,mask cropping 和 mask pooling 的分类上界也很有限(仅约 47-51%),远未饱和
  • 核心瓶颈:mask 与 CLIP 特征之间存在根本性的对齐缺失——mask 只告诉"在哪里",却不告诉 CLIP"关注什么"

核心动机:设计一个轻量级适配器,从 mask 和 CLIP 特征中学习语义激活图,不仅聚合 mask 内的区域信息,还纳入上下文信息,打破 OVS 的分类上界。

方法详解

整体框架

Mask-Adapter 作为即插即用模块插入任何基于 mask pooling 的 OVS 方法中。输入为 N 个 class-agnostic proposal mask 和 CLIP 视觉特征,输出为增强的 mask 嵌入,与文本嵌入匹配完成分类。训练时仅更新 Mask-Adapter 参数,CLIP 完全冻结。

关键设计

  1. 语义激活图提取:

    • 功能:从 proposal mask 和 CLIP 特征中生成"该关注哪里"的语义权重图,替代简单的 binary mask 聚合
    • 核心思路:将 binary mask 通过两个 strided \(3 \times 3\) 卷积 patchify 到与 CLIP 特征同尺寸的 mask 特征 \(\mathcal{F}_m\),与 CLIP 特征 \(\mathcal{F}_{clip}\) 相加融合,经过 3 个 ConvNeXt block 增强语义后,通过最终卷积层生成 \(K\) 个语义激活图 \(\mathbf{A}\)。归一化后的激活图与 CLIP 特征做加权聚合,取 \(K\) 个结果的均值作为最终 mask 嵌入:\(E_m = \frac{1}{K}\sum_{k=1}^K \bar{\mathbf{A}}_k \cdot \mathcal{F}_{clip}^T\)
    • 设计动机:与 mask pooling 只聚合目标区域不同,语义激活图可以选择性地高亮识别相关区域、抑制无关区域,同时包含背景上下文——这对区分语义相似但上下文不同的物体至关重要
  2. IoU-based Matcher + Mask 一致性损失:

    • 功能:增强 Mask-Adapter 对不同质量 mask 的鲁棒性,防止过拟合
    • 核心思路:替换 Hungarian matcher 为 IoU-based matcher——选择所有 IoU 超过阈值的 GT-pred mask 对进行训练(一对多),提供更多样的训练样本。同时引入 mask 一致性损失:对匹配的 GT mask 和预测 mask 分别送入 Mask-Adapter 获取嵌入 \(e^{gt}\)\(e^{pred}\),最小化它们的余弦距离 \(\mathcal{L}_{cos} = 1 - \sigma_{cos}(e^{gt}, e^{pred})\)
    • 设计动机:Hungarian matcher 是一对一匹配,使得多个与同一物体高 IoU 的预测 mask 中仅一个参与训练,错过大量有价值的负样本;一致性损失使相似 IoU 的 mask 获得相似 CLIP 嵌入
  3. 稳定的 Mask-Text 对齐训练策略:

    • 功能:确保训练稳定性并保持 CLIP 的开放词汇泛化能力
    • 核心思路:两阶段训练——(1) Ground-truth mask warmup(仅用 GT mask 训练,建立基础泛化能力),(2) Mixed-mask training(混合 GT mask 和来自 IoU-based matcher 的预测 mask 训练,增加低质量 mask 和误分类样本)。总损失为 \(\mathcal{L} = \lambda_{ce} \cdot \mathcal{L}_{ce} + \lambda_{cos} \cdot \mathcal{L}_{cos}\)
    • 设计动机:直接用预测 mask 训练会导致过拟合和不稳定(低质量 mask 太多);GT warmup 保证初始稳定性,混合训练增强对真实推理场景的适应性

损失函数

  • 交叉熵损失 \(\mathcal{L}_{ce}\):mask 分类
  • 余弦一致性损失 \(\mathcal{L}_{cos}\):约束相似 mask 获得相似嵌入
  • 总损失:\(\mathcal{L} = \lambda_{ce} \cdot \mathcal{L}_{ce} + \lambda_{cos} \cdot \mathcal{L}_{cos}\)

实验关键数据

主实验(开放词汇语义分割 mIoU)

方法 VLM A-150 A-847 PC-59 PC-459 PAS-20
FC-CLIP ConvNeXt-L 34.1 14.8 58.4 18.2 95.4
FC-CLIP + Mask-Adapter ConvNeXt-L 36.6 14.1 59.7 19.3 95.5
MAFTP ConvNeXt-L 36.3 15.5 59.5 21.2 96.4
MAFTP + Mask-Adapter ConvNeXt-L 38.2 16.2 60.4 22.7 95.8
CAT-Seg ViT-L/14 37.9 16.0 63.3 23.8 97.0

消融实验(ADE20K, 无 ensemble)

方法 mIoUs mIoUu mIoU
Mask2Former + CLIP 34.8 17.5 26.0
Mask2Former + Ours 45.3 (+10.5) 21.8 (+4.3) 33.4 (+7.4)
FC-CLIP 34.6 18.6 26.5
FC-CLIP + Ours 46.2 (+11.6) 24.8 (+6.2) 35.4 (+8.9)

上界分析(GT mask 分类准确率)

方法 ADE20K A-150
Mask Cropping ~47%
Mask Pooling ~51%
Mask-Adapter ~69%

关键发现

  • Mask-Adapter 将 GT mask 分类上界从约 51% 提升到约 69%,证实了 mask-CLIP 对齐是核心瓶颈
  • 在 FC-CLIP 上提升 +2.5 mIoU(A-150),在 MAFTP 上提升 +1.9 mIoU(A-150),一致有效
  • 无 ensemble 的消融中,seen 类提升更大(+10-11 mIoU),unseen 类也有 +4-6 mIoU 的提升
  • 可无训练扩展到 SAM,在多个 OVS 基准上取得可观结果
  • IoU-based matcher 和 mask 一致性损失各贡献约 0.5-1.0 mIoU

亮点与洞察

  • 问题定位精准:通过 GT mask 上界实验清晰揭示了"精确 mask ≠ 准确分类"这一长期被忽视的问题
  • 语义激活图 vs mask pooling:本质区别在于语义激活图会利用整幅图的上下文信息(而非仅 mask 内),且选择性高亮识别相关区域——这与人类识别物体时利用上下文的行为一致
  • 即插即用设计优雅:仅需在现有方法的 mask pooling 步骤后插入一个轻量模块,不修改骨干网络
  • 一致性损失的几何直觉:在嵌入空间为未见类保留更多空间,相似 mask 聚拢减少已见类的空间占用

局限与展望

  • 在 A-847(847 类细粒度)上的提升不如 A-150 明显,极细粒度分类仍是挑战
  • 训练仅在 COCO 上进行,泛化到更多领域的表现有待验证
  • ConvNeXt block 数量和语义激活图数量 \(K\) 的选择缺少充分消融
  • 未探索与 per-pixel 方法(如 CAT-Seg)结合的可能性
  • Mask-Adapter 的参数量和推理开销未详细讨论

相关工作与启发

  • 与 Deop 的区别:Deop 用 heatmap decoder 从图像特征和 mask 生成热力图,而 Mask-Adapter 从 proposal mask 本身提取语义激活图,保留更多 mask 上下文信息,且可即插即用
  • 与 MAFT/MAFTP 的互补性:MAFTP 微调 CLIP 编码器和文本表示,Mask-Adapter 改进 mask 嵌入提取,二者组合取得最优结果
  • 启发:OVS 的瓶颈不在 mask 生成质量,而在 mask-to-CLIP 的嵌入对齐——这一洞察可能改变后续研究的重心

评分

  • 新颖性: ⭐⭐⭐⭐ 上界分析清晰定位问题,语义激活图替代 mask pooling 的思路有效但不算颠覆性
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 5 个基准、多种 baseline 方法、SAM 扩展、详细消融和上界分析
  • 写作质量: ⭐⭐⭐⭐ 逻辑链条清晰,可视化对比直观,但公式较多
  • 价值: ⭐⭐⭐⭐ 即插即用提升明显,对 OVS 社区的 mask 分类瓶颈提供了实用解决方案

相关论文