MaSS13K: A Matting-level Semantic Segmentation Benchmark¶
会议: CVPR 2025
arXiv: 2503.18364
代码: https://github.com/xiechenxi99/MaSS13K
领域: 语义分割
关键词: 高分辨率分割, matting级标注, 语义分割基准, 边界质量, 像素解码器
一句话总结¶
构建了包含 13,348 张 4K 分辨率图像的 matting 级语义分割数据集 MaSS13K(掩码复杂度比现有数据集高 20-50 倍),并提出 MaSSFormer 模型通过双分支像素解码器(全局语义 + 局部结构)在保持计算效率的同时实现了高分辨率场景下精细边界的高质量分割。
研究背景与动机¶
领域现状:语义分割在 COCO-Stuff、ADE20K 等数据集上取得了显著进步,Mask2Former 等方法将范式从像素分类转向掩码分类。然而这些数据集分辨率普遍低于 1000×1000,标注质量粗糙,无法满足图像编辑、虚化摄影、AR/VR 等对精细掩码细节的高要求。
现有痛点:(1) 高分辨率数据集(如 Mapillary Vistas、EntitySeg)仍低于 2K 且标注不够精确;(2) 高精度二值分割数据集(如 DIS5K、matting 数据集)标注精细但仅支持前景/背景分离,不能做全场景语义解析;(3) 现有分割方法在 4K 输入下感受野相对变小、全局语义聚合困难,同时边界细节提取不准确。
核心矛盾:如何在 4K 高分辨率输入下,既保证全局语义正确性,又能提取精细边界和局部细节,并且计算成本可控?
本文切入角度:从数据和模型两方面入手——构建首个大规模 matting 级语义分割数据集提供高质量标注,设计专门针对高分辨率的轻量像素解码器平衡语义与细节。
方法详解¶
整体框架¶
MaSSFormer 基于 Mask2Former 架构,由像素编码器、像素解码器和 Transformer 解码器三部分组成。核心创新在像素解码器:将编码器特征 {S1-S4} 分为两组,通过全局语义分支处理 {S2, S3, S4} 提取高层语义,通过局部结构分支处理 {S1, I} 提取低层细节,最后通过边缘引导融合模块(EGF)合并两路特征生成高分辨率掩码特征 D1。
关键设计¶
-
跨语义传输模块 (CST) + 感受野扩展模块 (RFB):
- CST 通过全局平均池化增强 S4 的全局上下文,再利用窗口交叉注意力将 S3 的空间细节传输到上采样后的 D4,最后通过窗口自注意力 + 可变形卷积生成 D3
- RFB 包含 4 个并行可变形卷积(核大小 1/3/5/7)+ 逐点卷积,捕获多尺度结构同时扩展感受野
- 设计动机:4K 输入下标准卷积感受野相对缩小,CST 在低分辨率特征上计算注意力高效获取全局语义,RFB 进一步补充多尺度信息
-
低层结构提取模块 (LSE):
- 将 S1 上采样到 H/2×W/2 并与下采样图像拼接,通过通道分裂 + 空间注意力提取边缘感知特征
- 为降低 H/2 分辨率的计算代价,将特征拆分为两组分别处理后再拼接
- 设计动机:传统方法为效率忽略 1/4 分辨率特征,但高分辨率分割需要这些高频结构信息
-
边缘引导融合模块 (EGF):
- 先将 S_detail 与 D2 相加后经卷积预测边缘图 P^edge(用 BCE 损失监督)
- 再用 Sigmoid(S_detail) 作为注意力权重 refine D2,然后通过通道压缩 → 可变形卷积 → 残差连接生成最终 D1
- 设计动机:边缘检测任务迫使网络学习低层结构,让 S_detail 聚焦到边缘区域,引导低层-高层特征的有效融合
损失函数¶
在 Mask2Former 原有损失(分类损失 L_cls + BCE + Dice)基础上增加两项:
- 加权 BCE 损失:通过边缘权重图 \(W^i = G^i - f_{avg}(G^i, k)\) 对边缘区域加权 \((1 + \lambda W^i_j)\),强化边界监督
- 边缘检测损失 L_edge:监督 EGF 模块对边缘预测结果
- 总损失:\(L_{total} = L_{BCE}^w + L_{Dice} + L_{cls} + L_{edge}\)
实验关键数据¶
主实验表¶
| 方法 | Backbone | mIoU (val) | BIoU (val) | BF1 (val) | Param | FLOPs |
|---|---|---|---|---|---|---|
| Mask2Former | R50 | 88.28 | 47.40 | .5458 | 44.01M | 3123G |
| MPFormer | R50 | 87.76 | 47.81 | .5513 | 43.9M | 4155G |
| MaSSFormer | R50 | 88.97 | 48.97 | .5639 | 37.42M | 2036G |
| MaSSFormer-Lite | R18 | 87.11 | 45.35 | .5137 | 15.07M | 771G |
- MaSSFormer 在所有指标上最优,mIoU +0.69%、BIoU +1.57%(vs 次优),且 FLOPs 更低
- MaSSFormer-Lite (R18) 以 15M 参数在 BIoU 上超过多个 R50 模型
消融表¶
| 组件 | mIoU | BIoU | FLOPs |
|---|---|---|---|
| Baseline | 85.54 | 42.69 | 1298G |
| +CST | 88.11 | 44.42 | 1348G |
| +CST+RFB | 88.29 | 45.23 | 1692G |
| +CST+RFB+LSE | 88.02 | 47.36 | 1928G |
| +CST+RFB+LSE+EGF (Full) | 88.97 | 48.97 | 2036G |
- CST 贡献最大 mIoU 提升 (+2.57%),LSE 贡献最大 BIoU 提升 (+2.13%)
- 单独加 LSE 会略降 mIoU(低层特征误导高层),EGF 融合后两者同时提升
关键发现¶
- MaSS13K 的 mIPQ 掩码复杂度 (383±818) 比 EntitySeg (20±29) 高 ~20 倍,比 DIS5K (116±452) 高 ~3 倍
- 在更强 backbone (Swin-B) 上 MaSSFormer vs Mask2Former 的 BIoU 差距扩大到 +1.91%
- 新类别扩展实验:通过标签解耦策略(精确标签加边缘权重 + 伪标签反向权重),Car 类 BIoU 从 20.44 提升到 35.68
亮点与洞察¶
- 数据集贡献突出:MaSS13K 是首个大规模 matting 级语义分割数据集,填补了"高精度标注 + 多类别语义解析"的空白。其 "others" 类并非传统背景类,而是包含精细分割的未命名物体
- 双分支解码器设计精巧:全局语义分支在低分辨率上高效聚合全局信息,局部结构分支在高分辨率上提取细节,EGF 通过边缘预测任务引导两路融合,比传统 FPN 更适合 4K 场景
- 新类别泛化机制:利用精确标注学习边缘分割能力 + 伪标签学习新类别语义 + 标签解耦策略平衡两者,证明高质量标注可以迁移精细分割能力到新类别
局限性¶
- 仅包含 7 个语义类别,覆盖范围有限
- 新类别扩展需要逐类处理,尚未支持大规模多类别同时扩展
- 对特别纤细的结构(如电线)分割仍有挑战
- 数据集构建成本高(PhotoShop matting 级标注),难以快速扩展
相关工作与启发¶
- 与 DIS5K 的关系:DIS5K 提供了高精度的类无关二值分割标注,MaSS13K 将此精度扩展到多类语义分割
- 评价指标启发:BIoU 和 BF1 对高分辨率分割的评估更有区分度,标准 mIoU 太粗糙无法反映边界质量差异
- 思路迁移:双分支(语义+细节)架构可以迁移到其他需要高分辨率输出的密集预测任务(matting、超分辨率引导分割等)
评分¶
⭐⭐⭐⭐ — 数据集贡献突出(首个 matting 级多类语义分割基准),模型设计合理且高效,新类泛化机制有价值。类别数量有限和标注成本问题限制了短期影响力。
相关论文¶
- [CVPR 2025] MatAnyone: Stable Video Matting with Consistent Memory Propagation
- [CVPR 2025] RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring
- [CVPR 2025] The Devil is in Low-Level Features for Cross-Domain Few-Shot Segmentation
- [ACL 2025] Pixel-Level Reasoning Segmentation via Multi-turn Conversations
- [ICCV 2025] ZIM: Zero-Shot Image Matting for Anything