Hierarchical Compact Clustering Attention (COCA) for Unsupervised Object-Centric Learning¶

会议: CVPR 2025
arXiv: 2505.02071
代码: 无
领域: 分割 / 无监督学习
关键词: 无监督目标发现, 目标中心学习, 层级聚类, 紧凑性, Slot Attention

一句话总结¶

COCA-Net 提出基于物理紧凑性（compactness）的层级聚类注意力层，通过自底向上的层级合并策略发现物体中心，解决了 Slot Attention 在初始化敏感性、slot 数量预设和背景分割等方面的固有缺陷，在六个无监督物体发现数据集上达到 SOTA。

研究背景与动机¶

领域现状：目标中心学习（OCL）旨在以无监督方式将场景分解为独立物体表示（slot），Slot Attention（SA）及其变体是主流方法。SA 通过类似软 K-Means 的迭代注意力机制将像素分配给 slot。

现有痛点：(1) 初始化敏感：SA 从同一潜在分布初始化所有 slot，导致路由问题（routing problem），多个 slot 绑定到同一物体；(2) slot 数量需预设：预定义数量不当会导致过分割或欠分割；(3) 背景分割差：SA 难以有效处理散布的、非紧凑的背景区域。

核心矛盾：SA 继承了 K-Means 的根本局限—对初始化敏感、需预定簇数、假设簇形状和大小，这些限制在复杂场景中表现尤其严重。

切入角度：层级凝聚聚类（HAC）天然具有输出簇数灵活、对噪声鲁棒、可捕获层级关系等优点，但在 OCL 领域尚未被充分挖掘。物理学中的紧凑性度量可作为空间归纳偏置区分前景（紧凑）和背景（分散）。

核心 idea：将物理紧凑性度量引入层级凝聚聚类框架，构建无需预设 slot 数量的自底向上物体发现网络。

方法详解¶

整体框架¶

COCA-Net 采用编码器-解码器架构：编码器由多个 COCA 层级联组成，自底向上逐层聚类像素特征到物体 slot；解码器使用 Spatial Broadcast Decoder（SBD）从 slot 重建图像。训练目标为像素重建的 MSE 损失。

关键设计¶

紧凑性评分 (Compactness Scoring):
- 功能：为每个候选物体 mask 计算紧凑性分数，作为空间归纳偏置引导聚类
- 核心思路：基于转动惯量（Moment of Inertia, MI）的质量归一化紧凑性度量。对每个节点 \(i\) 的亲和力 mask \(\boldsymbol{\Lambda}_i\) 计算 \(\mathcal{C}^i(\boldsymbol{\Lambda}_i) = \frac{I^\mu(\Theta_\mu)}{I^\mu(\boldsymbol{\Lambda})}\)，即该 mask 的 MI 与同面积圆的 MI 之比。圆（最紧凑形状）得分为 1，分散形状得分接近 0
- 设计动机：前景物体通常具有紧凑凸形，背景元素往往分散带孔洞。MI 紧凑性度量具有可加性、尺度不变性，且当以形状质心为轴时 MI 最小→紧凑性最大，自然定位物体中心
顺序物体中心发现 (Sequential Object Centroid Discovery):
- 功能：在每个窗口内迭代发现并分离物体簇，无需预设簇数
- 核心思路：基于 Stick-Breaking Clustering (SBC) 变体——初始化全 1 的 scope 张量 \(\mathbf{Z}\)，每次迭代选择紧凑性最高的节点 \(\omega_m\) 作为锚点，其亲和力 mask 经 scope 遮蔽后成为输出簇 \(\Pi_m\)，再更新 scope 排除已聚类节点。紧凑性评分仅需在聚类循环前计算一次
- 设计动机：利用 MI 紧凑性的性质——物体质心处紧凑性最高——自然分离不同物体中心。所有亲和力 mask 的紧凑性并行计算，比 Sequential Slot 方法高效
层级池化与跳跃连接 (Hierarchical Pool, Aggregate & Skip Connect):
- 功能：跨层级传递特征和聚类结构，构建物体表示的层级树
- 核心思路：每个 COCA 层将输入节点划分为不重叠窗口，在窗口内并行执行聚类和池化。层间通过合并相邻两层的聚类 mask 实现跳跃连接，使特征在每隔一层间直接传递。最终层的聚类构成物体 slot，整个层级聚类结构形成 dendrogram 树
- 设计动机：非重叠窗口划分使聚类可并行执行；跳跃连接促进深层网络的无监督特征学习；dendrogram 可同时从编码器端评估分割质量

损失函数 / 训练策略¶

唯一优化目标为像素重建的 MSE 损失，从零开始无监督训练
像素特征编码器为简单的逐点处理骨干网络（每像素独立编码外观+位置信息）
为层级中每个像素维护 5 个物理属性：面积、质量、密度、转动惯量、均值位置
所有方法统一使用 SBD 解码器，slot 数量设为数据集中物体最大数量

实验关键数据¶

主实验¶

6 个数据集上的解码器端前景物体分割（ARI/mSC，3 种子均值±标准差）：

数据集	方法	ARI↑	mSC↑
Multi-dSprites	BOQSA	0.91±0.01	0.89±0.01
Multi-dSprites	COCA-Net	0.93±0.01	0.91±0.01
ObjectsRoom	INVSA	0.88±0.00	0.80±0.01
ObjectsRoom	COCA-Net	0.88±0.00	0.82±0.01
ShapeStacks	BOQSA	0.83±0.09	0.80±0.09
ShapeStacks	COCA-Net	0.91±0.01	0.85±0.01
CLEVR6	INVSA	0.96±0.01	0.87±0.03
CLEVR6	COCA-Net	0.98±0.00	0.92±0.01

含背景分割关键数据¶

数据集	方法	ARI↑ (含BG)	mSC↑ (含BG)
ObjectsRoom	INVSA	0.66±0.12	0.68±0.07
ObjectsRoom	COCA-Net	0.95±0.01	0.87±0.02
Multi-dSprites	BOQSA	0.34±0.06	0.56±0.02
Multi-dSprites	COCA-Net	0.98±0.00	0.96±0.00

编码器端评估¶

COCA-Net 编码器端分割同样远超竞争方法，如 ShapeStacks 上 ENC-FG ARI 0.82 vs BOQSA 的 0.49（提升约 67%）。

关键发现¶

COCA-Net 在几乎所有数据集和指标上优于或持平 SOTA，且方差极小（鲁棒性强）
含背景分割中表现尤其突出，在 ObjectsRoom 上比第二名提升约 30% ARI
编码器端即可产出高质量分割 mask，表明 COCA-Net 编码器可独立作为目标中心特征提取器
唯一弱点是 ShapeStacks 含背景 ARI（0.31），因该数据集将所有背景归为单一 GT mask，而 COCA-Net 会合理分割多个背景区域

亮点与洞察¶

物理直觉与深度学习的优雅结合：紧凑性是一个直觉清晰的物理量，将其作为可微分操作嵌入网络，比纯数据驱动方法更具可解释性
从 K-Means 到 HAC 的范式转变：跳出 Slot Attention 系列的 K-Means 框架，用层级凝聚聚类避免了初始化敏感、簇数预设等根本问题
编码器端高质量分割：现有方法几乎只评估解码器端 mask，COCA-Net 编码器的 dendrogram 本身即提供高质量结果，为下游任务提供特征提取器的可能

局限与展望¶

目前仅在合成数据集上验证，尚未展示在真实世界复杂场景的表现
层级结构的超参数（窗口大小、层数等）需要针对数据集调整
紧凑性假设对凹形或环形物体可能不成立
可探索将 COCA 编码器与更强的解码器（如扩散模型）结合

评分¶

⭐⭐⭐⭐ — 在无监督目标中心学习领域提出了新颖且有效的范式转变，物理直觉与网络设计结合优雅，实验充分但缺乏真实场景验证。