unMORE: Unsupervised Multi-Object Segmentation via Center-Boundary Reasoning¶

会议: ICML2025
arXiv: 2506.01778
代码: GitHub
领域: 无监督分割 / 多目标发现
关键词: unsupervised segmentation, object-centric representation, center field, boundary distance field, multi-object reasoning

一句话总结¶

提出 unMORE，通过学习三层物体中心表征（存在性/中心场/边界距离场）并设计无网络的多目标推理模块，实现无监督多目标分割，在 COCO 等 6 个数据集上大幅超越所有无监督方法。

研究背景与动机¶

无监督多目标分割旨在不依赖人工标注、从单张图像中发现并分割多个物体。现有方法主要分两类：

Slot-based 方法（如 SlotAttention）：依赖图像重建目标学习物体表征，在合成数据上有效但难以扩展到复杂真实场景

自监督特征蒸馏方法（如 TokenCut、CutLER、CuVLER）：利用 DINO/v2 预训练特征的物体定位线索发现多目标，但仍存在 欠分割 问题——倾向于将相邻物体聚合为一个

核心挑战在于：(1) 物体性（objectness）定义不明确；(2) 缺乏有效的多目标搜索机制。本文类比人类婴幼儿从单物体图像学习物体概念、再在复杂场景中识别多物体的能力，提出两阶段流水线。

方法详解¶

整体框架¶

unMORE 是一个两阶段流水线：

阶段一：在 ImageNet 单物体图像上训练 Objectness Network，学习三层物体中心表征
阶段二：利用训练好的（冻结的）Objectness Network，通过无网络的多目标推理模块在场景图像中发现多个物体

数据准备¶

利用 CuVLER 的 VoteCut 方法，对 ImageNet 每张图像提取 DINO/v2 patch 特征 → 构建亲和矩阵 → Normalized Cut → 选择最显著的前景 mask 作为粗略物体掩码。

三层物体中心表征¶

1. 物体存在性分数 \(f^e\)：二值分类，图像含有效物体则为 1，否则为 0。对 ImageNet 图像裁剪最大背景区域作为负样本。

2. 物体中心场 \(\boldsymbol{f}^c \in \mathbb{R}^{H \times W \times 2}\)：mask 内每个像素分配一个指向物体包围盒中心 \([C_h, C_w]\) 的单位向量，mask 外为零向量：

\[\boldsymbol{f}^c_{(h,w)} = \begin{cases} \frac{[h,w] - [C_h, C_w]}{\|[h,w] - [C_h, C_w]\|}, & \text{if } M_{(h,w)}=1 \\ [0,0], & \text{otherwise} \end{cases}\]

3. 物体边界距离场 \(\boldsymbol{f}^b \in \mathbb{R}^{H \times W \times 1}\)：先算带符号距离场（mask 内正、外负、边界零），再分别对前景/背景归一化：

\[\boldsymbol{f}^b_{(h,w)} = \begin{cases} S_{(h,w)} / \max(\boldsymbol{S} * \boldsymbol{M}), & \text{if } M_{(h,w)}=1 \\ S_{(h,w)} / |\min(\boldsymbol{S} * (\boldsymbol{1}-\boldsymbol{M}))|, & \text{otherwise} \end{cases}\]

关键性质：通过 \(\boldsymbol{f}^b\) 的梯度可反推最大符号距离值 \(S_{(\hat h,\hat w)} = 1 / \|[\partial \boldsymbol{f}^b / \partial h, \partial \boldsymbol{f}^b / \partial w]\|\)，用于边界推理。

Objectness Network 结构与训练¶

存在性分支：ResNet50 二分类器 → 预测 \(\tilde{f^e}\)
中心场 + 边界距离场分支：DPT-Large + 两个 CNN head → 分别预测 \(\tilde{\boldsymbol{f}^c}\)、\(\tilde{\boldsymbol{f}^b}\)
总损失：

\[\ell = \text{CE}(\tilde{f^e}, f^e) + \ell_2(\tilde{\boldsymbol{f}^c}, \boldsymbol{f}^c) + \ell_1(\tilde{\boldsymbol{f}^b}, \boldsymbol{f}^b)\]

多目标推理模块（无网络）¶

Step 0 — 初始提案生成：在场景图像上均匀随机初始化 T 个 bounding box 提案，统一缩放到 128×128。

Step 1 — 存在性检查：查询每个提案的 \(f^e_p\)，低于阈值 \(\tau^e\) 则丢弃。

Step 2 — 中心推理：查询中心场 \(\boldsymbol{f}^c_p\)，用预定义的 5×5 反中心核卷积生成 anti-center map \(\boldsymbol{f}^{ac}_p\)。若最大反中心值 > \(\tau^c\)，说明含 ≥2 个拥挤物体，在该位置将提案分裂为上/下/左/右 4 个子提案，回到 Step 1；否则用连通分量分割。

Step 3 — 边界推理：对单物体提案，取边界距离场四条边框的最大值，利用梯度反推实际像素距离，迭代更新提案的四个角点坐标——正值扩张、负值收缩，直到收敛到紧致包围盒。

最终对所有收敛提案做 NMS 去重，取边界距离场正值区域与中心场非零区域的并集作为物体 mask。

可选：训练检测器¶

将发现的物体作为伪标签训练 class-agnostic detector（Mask R-CNN），即 unMORE 的完整版本。

实验关键数据¶

COCO* val（含额外 197 类标注）主要结果¶

方法	类型	AP50^box	AP^box	AP50^mask	AP^mask
VoteCut	无学习	10.8	5.5	9.5	4.6
DINOSAUR	SlotAtt	2.0	0.6	1.1	0.3
unMORE_disc	Obj.Net	19.1	10.1	17.8	9.5
CutLER	Det.×3	26.0	14.7	22.7	11.8
CuVLER	Det.×2	28.0	15.5	24.4	12.6
unMORE	Obj.Net+Det.×1	32.6	18.0	29.6	15.5

unMORE_disc（不训练检测器）已超越所有无学习基线约 2× AP
unMORE（训练单轮检测器）相比 CuVLER AP^box 提升 +2.5，AP^mask 提升 +2.9

零样本跨数据集泛化（Table 2 摘要）¶

数据集	CutLER AP50^box	CuVLER AP50^box	unMORE AP50^box
COCO20K	22.4	24.1	25.9
LVIS	8.5	8.9	10.4

在 KITTI、VOC、Object365、OpenImages 上同样取得最佳无监督结果。

拥挤场景优势¶

所有基线在拥挤图像上性能崩溃，unMORE 由于中心推理的分裂机制能有效分离相邻物体，表现显著优于基线。

亮点与洞察¶

三层表征设计精巧：存在性→中心→边界三个层级分别回答"有没有/在哪/什么形状"，类比人类物体认知过程
无网络推理模块：Step 2/3 完全不含可学习参数，仅依赖中心场和边界距离场的几何性质进行迭代推理
反中心核设计：5×5 核向外辐射的单位向量与中心场做卷积，巧妙检测拥挤物体间的分界点
边界距离场梯度性质：归一化后梯度的倒数即可恢复物体尺寸，直接用于提案扩张/收缩
COCO* 补充标注：手动为 COCO val 补充 197 类标注，更公平评估无监督方法

局限与展望¶

依赖预训练特征质量：粗略 mask 来自 DINO/v2 + VoteCut，若预训练特征在特定领域（如医学影像）定位能力弱则效果受限
推理效率：Step 2/3 的迭代推理需要对每个提案多次前向传播，大量提案时计算开销较大
仅类无关检测：不提供类别信息，需额外分类器完成语义分割
阈值敏感性：\(\tau^e\)、\(\tau^c\) 等超参数需要调优，论文未充分讨论跨数据集鲁棒性
边界距离场对遮挡敏感：严重遮挡时 mask 不完整，可能导致边界距离场估计偏差

评分¶

新颖性: ⭐⭐⭐⭐ — 三层表征+无网络推理的组合非常新颖
实验充分度: ⭐⭐⭐⭐⭐ — 6 个数据集全面评估，含消融和 COCO* 补充标注
写作质量: ⭐⭐⭐⭐ — 结构清晰，图示优秀
价值: ⭐⭐⭐⭐ — 无监督分割新 SOTA，拥挤场景突破性进展