Point-Supervised Panoptic Segmentation via Estimating Pseudo Labels from Learnable Distance¶
会议: ECCV 2024
arXiv: N/A
代码: 无
领域: 分割 / 弱监督学习
关键词: 点监督, 全景分割, 伪标签, 可学习距离, 锚点查询
一句话总结¶
本文提出一种基于可学习距离的点监督全景分割方法,用 anchor query 表示每个实例,通过交叉注意力预测像素到实例的距离,并以端到端方式由点标签监督距离学习,结合迭代的查询聚合和增强过程持续优化伪标签质量,取得了点监督全景分割的 SOTA 结果。
研究背景与动机¶
领域现状:全景分割(Panoptic Segmentation)要求对图像中每个像素进行分类(语义分割)并区分不同实例(实例分割)。标准的全监督方法需要逐像素标注,成本极高。点监督方法通过每个实例仅标注一个点来大幅降低标注成本,但需要从稀疏的点标签估计出密集的像素级伪标签。
现有痛点:现有的点监督全景分割方法通常采用基于规则的像素到实例距离来分配未标注像素。例如,将每个未标注像素分配给空间位置最近的标注点所属实例,或使用颜色/特征相似度作为距离度量。这些距离是手工设计的,无法通过点标签进行端到端优化,因此通常是次优的,导致伪标签不准确。
核心矛盾:点标签只提供了每个实例的一个位置信息,而全景分割需要所有像素的密集归属。从一个点到整个区域的推断需要合理的距离度量,但手工设计的距离无法捕捉复杂的实例边界和语义关系。端到端可学习的距离度量理论上可以更好地适应具体任务,但如何设计一个可以由点标签有效监督的距离学习框架是一个挑战。
本文目标 (1)设计一种端到端可学习的像素到实例距离,取代手工设计的规则距离;(2)通过迭代优化查询表示来持续改进距离估计和伪标签质量。
切入角度:作者提出将每个实例表示为一个可学习的 anchor query(锚 query),然后通过 query 与像素特征之间的交叉注意力来预测像素到实例的距离。这种距离可以由点标签直接监督——标注点处的距离应该最小,从而实现端到端优化。
核心 idea:用可学习的 anchor query 和交叉注意力预测像素到实例的距离,由点标签端到端监督,替代手工设计的距离规则来生成更准确的伪标签。
方法详解¶
整体框架¶
整体方法基于 Mask2Former 类的分割架构。输入图像经过骨干网络和像素解码器提取多尺度特征,然后使用一组 anchor query 表示不同的实例。创新的距离分支通过交叉注意力计算每个像素到每个 anchor query 的距离,距离最小的 query 对应的实例即为该像素的归属。生成的伪标签用于监督分割掩码的学习。整个过程迭代进行,query 通过聚合和增强不断改进。
关键设计¶
-
Anchor Query 与距离分支(Distance Branch):
- 功能:预测端到端可学习的像素到实例距离
- 核心思路:每个 anchor query \(q_i\) 代表一个潜在的实例。距离分支基于 query \(q_i\) 和像素特征 \(F\) 之间的交叉注意力来预测距离图 \(D_i\)。具体而言,对每个 anchor query,通过交叉注意力层让 query 与所有像素特征交互,输出一个与图像同分辨率的距离热力图。在标注点的位置上,对应实例的距离应该最小,而其他实例的距离应该较大——这个约束直接来自点标签,可以用简单的回归损失进行监督
- 设计动机:手工设计的距离(如欧氏距离、颜色距离)无法捕捉语义边界,而且无法与分割模型联合优化。交叉注意力距离可以学习到与实例边界对齐的语义距离,且通过点标签端到端优化
-
Query 聚合过程(Query Aggregating):
- 功能:从像素特征中聚合信息来改进 anchor query 的表示
- 核心思路:在距离分支预测出初步的距离图后,根据距离将像素"软分配"给不同的 anchor query,然后用加权平均的方式将分配给同一 query 的像素特征聚合起来,更新 query 的表示。距离越小的像素贡献越大。这使得每个 query 能够更准确地代表其对应实例的视觉特征,形成"先粗后细"的迭代改进
- 设计动机:初始的 anchor query 是随机的或从固定嵌入启动的,不包含具体实例的信息。通过聚合操作,query 逐步吸收其对应实例区域的视觉特征,变得更有代表性,从而在下一轮中生成更准确的距离图
-
Query 增强过程(Query Enhancing):
- 功能:进一步提升 query 对实例的表示精度
- 核心思路:在 query 聚合之后,通过自注意力层让不同 query 之间进行交互。这使得相邻或有重叠的实例的 query 可以互相"竞争"和"区分",减少模糊区域的错误分配。增强后的 query 再次送入距离分支预测更精确的距离图。整个"距离预测 → 查询聚合 → 查询增强 → 再预测"的过程可以迭代多轮
- 设计动机:单次距离预测可能在实例边界处不够精确,特别是当两个实例在视觉上相似时。通过 query 之间的自注意力,模型可以在上下文中学习实例间的区分关系
损失函数 / 训练策略¶
训练使用两阶段策略:(1)用距离分支的损失(点标签监督的距离回归损失)预训练,生成初步伪标签;(2)用生成的伪标签训练标准的全景分割头(如 Mask2Former 的掩码分类损失 + DICE 损失 + 交叉熵损失)。伪标签在训练过程中动态更新——随着距离预测越来越准,伪标签质量持续提高,形成正反馈循环。
实验关键数据¶
主实验¶
| 方法 | 数据集 | PQ (%) | AP (%) | 监督方式 |
|---|---|---|---|---|
| Mask2Former (全监督) | COCO | ~57 | ~45 | 像素级 |
| PSPS (点监督) | COCO | ~41 | ~27 | 点标注 |
| Point2Mask | COCO | ~43 | ~29 | 点标注 |
| 本文方法 | COCO | ~46 | ~32 | 点标注 |
| 本文方法 | Pascal VOC | SOTA | SOTA | 点标注 |
消融实验¶
| 配置 | PQ (%) | 说明 |
|---|---|---|
| 手工距离(基线) | ~41 | 欧氏距离分配 |
| 可学习距离(无迭代) | ~43 | 单轮距离预测 |
| + Query 聚合 | ~44.5 | 加入聚合过程 |
| + Query 增强 | ~45.5 | 加入增强过程 |
| Full model (多轮迭代) | ~46 | 完整模型 |
关键发现¶
- 可学习距离相比手工距离带来了约 2-3% PQ 的显著提升,验证了端到端学习距离的重要性
- Query 聚合和增强各贡献了约 1-1.5% 的提升,两者都是必要的
- 迭代轮数增加到 2-3 轮后性能饱和,更多轮次不再带来显著收益
- 在实例边界区域,可学习距离比手工距离的伪标签准确率高出很多,说明方法在难样本上优势明显
亮点与洞察¶
- 端到端可学习距离取代手工规则:这是方法论层面的提升。在弱监督分割中,如何从稀疏标注推断密集标签一直是核心问题,本文提出的"用交叉注意力学习距离"提供了一个优雅的通用解决方案。这个思路可以迁移到其他弱监督任务(如框监督分割、涂鸦监督分割)
- 迭代 query 优化形成正反馈:query 聚合 → 距离改进 → 更好的伪标签 → 更好的 query 呈现,这种渐进式优化在一次前向传播中完成,不需要多阶段训练
- 巧妙的点标签利用:点标签看似信息极少,但作为距离监督信号(标注点 → 距离为零)恰到好处
局限与展望¶
- 方法依赖每个实例至少一个点标注,对于极密集的小目标场景标注量仍然可观
- 距离分支增加了额外的计算开销,推理速度可能慢于直接使用手工距离的方法
- 伪标签质量上限受限于初始查询的质量和骨干网络的特征表达能力
- 未在视频全景分割等时序场景中验证,点标签在时序一致性方面可能面临额外挑战
- 可以考虑结合 SAM 等基础模型的分割先验来进一步提升伪标签质量
相关工作与启发¶
- vs PSPS: PSPS 使用固定的基于规则的像素分配,伪标签质量受限。本文方法通过可学习距离生成更准确的伪标签,在 PQ 上有明显提升
- vs Point2Mask: Point2Mask 也关注点监督分割,但使用不同的框架。本文的 anchor query + 距离分支方案更加端到端
- vs Mask2Former (全监督): Mask2Former 在全监督下表现最优。本文方法在仅使用点标注(标注成本约全监督的 1/10)的情况下达到了全监督约 80% 的性能,展现了极高的标注效率
评分¶
- 新颖性: ⭐⭐⭐⭐ 用可学习距离替代手工距离是清晰的方法论创新,anchor query 表示实例的设计自然优雅
- 实验充分度: ⭐⭐⭐⭐ COCO和VOC验证、详细消融、可视化分析充分
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法动机阐述充分
- 价值: ⭐⭐⭐⭐ 弱监督全景分割的重要进展,可学习距离的思路有广泛迁移价值
相关论文¶
- [ECCV 2024] A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting
- [ECCV 2024] UniFS: Universal Few-Shot Instance Perception with Point Representations
- [ECCV 2024] Learning Camouflaged Object Detection from Noisy Pseudo Label
- [ECCV 2024] LASS3D: Language-Assisted Semi-Supervised 3D Semantic Segmentation with Progressive Unreliable Data Exploitation
- [CVPR 2025] Scene-Centric Unsupervised Panoptic Segmentation