Collapse-Proof Non-Contrastive Self-Supervised Learning¶

会议: ICML 2025

作者: Emanuele Sansone, Tim Lebailly, Tinne Tuytelaars (KU Leuven)

领域: 自监督学习

关键词: 非对比自监督学习, 崩塌避免, 超维计算, 特征去相关, 聚类表示

一句话总结¶

提出 FALCON 方法，基于超维计算 (hyperdimensional computing) 原理设计投影器和损失函数，理论证明可同时避免四种已知训练失败模式（表示崩塌、维度崩塌、聚类崩塌、簇内崩塌），并使表征自然具备去相关和聚类特性。

研究背景与动机¶

自监督学习 (SSL) 虽在无标签数据上取得巨大成功，但训练过程中存在多种 失败模式 (failure modes)，限制了方法的可靠性和广泛应用：

表示崩塌 (Representation Collapse): 所有输入的表示坍缩到同一常向量

维度崩塌 (Dimensional Collapse): 嵌入仅占据向量空间的低维子空间

聚类崩塌 (Cluster Collapse): 数据点仅被分配到可用原型的子集

簇内崩塌 (Intracluster Collapse): 同一聚类内样本的表示差异趋近于零

现有方法（如动量编码器、停止梯度、非对称投影头等）都是启发式策略，无法从理论上保证避免所有崩塌。特征去相关方法（如 Barlow Twins）和聚类方法（如 SwAV）分别处理部分崩塌，但尚无统一解决方案。

本文目标：找到一组充分条件，保证同时避免所有四种崩塌，并据此设计简洁的投影器和损失函数。

方法详解¶

整体框架¶

FALCON (FAiLure-proof non-CONtrastive SSL) 方法包含以下流程：

对无标签数据生成增强对 \((X, X')\)
编码器 \(g: \mathbb{R}^d \to \mathbb{R}^f\) 提取表示 \(Z = g(X)\)
FALCON 投影器生成嵌入和概率分配
使用 FALCON 损失函数训练

投影器设计¶

投影器执行两步操作：

\[\mathbf{H} = \sqrt{f/n} \cdot \text{L2-norm}(\text{BN}(\text{Linear}(\mathbf{Z})))\]

\[\mathbf{P} = \text{Softmax}(\mathbf{H}\mathbf{W}/\tau)\]

其中关键设计： - 字典矩阵 \(\mathbf{W} \in \{-1, 1\}^{f \times c}\)：元素独立采样自 Rademacher 分布 - 温度参数 \(\tau = \sqrt{f/n} \cdot \log\frac{1 - \epsilon(c-1)}{\epsilon}\) - 字典大小 \(c \gg f\)（超完备字典）

这一设计的核心创新来自超维计算：随机 Rademacher 向量在高维空间中近似正交：

\[\mathbb{E}_W\{w_j^T w_{j'}\} = \begin{cases} 1 & j = j' \\ 0 & j \neq j' \end{cases}, \quad \text{Var}_W\{\cos(w_j, w_{j'})\} = \frac{1}{f}\]

这使得 \(c\) 可远大于 \(f\)，突破正交向量数量 \(\leq f\) 的限制。

损失函数¶

\[\mathcal{L}_{\text{FALCON}}(\mathcal{D}) = -\frac{\beta}{n}\sum_{i=1}^n \sum_{j=1}^c p_{ij} \log p'_{ij} - \sum_{j=1}^c q_j \log \frac{1}{n}\sum_{i=1}^n p_{ij}\]

第一项（不变性损失）: 鼓励增强对产生一致分配，可分解为熵项 + KL散度项
第二项（先验匹配损失）: 强制分配分布匹配先验 \(\mathbf{q}\)（均匀分布），防止聚类崩塌
\(\beta > 0\) 平衡两项

关键理论保证¶

定理（嵌入）: 在最优解处，每个嵌入与字典中恰好一个码字对齐：

\[\forall i \in [n], \exists! j \in [c] \text{ s.t. } \mathbf{h}_i = \alpha_{ij}\mathbf{w}_j + (\alpha_{ij} - \frac{1}{\sqrt{n}})\sum_{k \neq j}\mathbf{w}_k\]

推论1（完美对齐）: 当 \(c \to \infty\)，\(\mathbf{h}_i = \frac{1}{\sqrt{n}} \mathbf{w}_j\)

推论2（对角协方差）: \(\mathbf{H}^T\mathbf{H} = \mathbf{I}\)，即嵌入特征完全去相关

推论3（块对角邻接）: 邻接矩阵 \(\mathbf{H}\mathbf{H}^T\) 为块对角矩阵，等大小块 \(n/c\)，即天然聚类

实验关键数据¶

主实验：下游任务泛化性能（Table 1）¶

方法	SVHN NMI	CIFAR-10 NMI	CIFAR-100 NMI	SVHN Acc.	CIFAR-10 Acc.	CIFAR-100 Acc.
Barlow Twins	0.06	0.05	0.10	0.76	0.65	0.28
SwAV	0.03	0.29	0.12	0.45	0.56	0.10
Self-Classifier	0.07	0.28	0.26	0.58	0.59	0.15
GEDI	0.07	0.29	0.25	0.58	0.64	0.38
FALCON (c=16384)	0.31	0.35	0.58	0.78	0.68	0.41

ImageNet-100 线性探测结果（Table 2，ViT-small，100 epochs）¶

方法	c=100	c=500	c=1K	c=5K	c=10K	c=50K	c=100K	c=200K	c=300K	c=500K
DINO Top-1	64.1%	65.8%	65.1%	65.7%	66.6%	67.5%	67.7%	68.3%	67.0%	67.2%
FALCON Top-1	64.9%	68.4%	70.2%	72.2%	72.9%	73.9%	72.2%	73.9%	73.6%	74.0%
DINO Top-5	87.0%	88.6%	88.7%	87.7%	89.2%	89.2%	89.4%	89.8%	89.2%	89.9%
FALCON Top-5	87.7%	89.9%	91.2%	91.7%	92.3%	92.6%	92.6%	92.9%	92.8%	92.9%

关键发现¶

字典大小的单调增益: 聚类和分类性能随字典大小 \(c\) 单调提升，FALCON 是唯一能系统性利用大字典的方法
崩塌完全避免: 协方差矩阵随 \(c\) 增大趋向对角，邻接矩阵块大小缩小，奇异值分布更均匀
超越 DINO: 在 ImageNet-100 上，FALCON 显著优于 DINO 且设计更简洁（无需停止梯度、教师中心化、EMA 等）

亮点与洞察¶

首次将超维计算与 SSL 结合：利用高维随机向量的准正交性突破字典大小限制，是极有创意的跨领域联接
理论驱动的设计：每个组件（Rademacher 字典、L2 归一化、大字典）都有明确的理论动机，而非凭经验调参
统一框架：同时实现特征去相关（Barlow Twins 族）和聚类（SwAV 族）的优势，理论证明两者可共存
极简设计：无需动量编码器、停止梯度、Sinkhorn 聚类层等常见 SSL 技巧，训练管线大幅简化

局限性¶

实验规模有限: 主实验使用 ResNet-8 在 SVHN/CIFAR 上验证，ImageNet-100 使用小 ViT；未在 ImageNet-1K 或更大数据上验证
仅考虑均匀先验: 理论分析限于 \(q_j = 1/c\) 的情况，非均匀先验（现实数据中更常见）未深入探讨
训练不稳定性: 在 ImageNet-100 上出现训练不稳定（部分码字初期未使用），需将 KL 匹配改为反向 KL
骨干网络容量假设: 主要理论结果假设骨干网络具有无限容量，有限容量下仅有部分保证

评分¶

维度	分数 (1-5)	说明
创新性	5	超维计算与 SSL 的首次结合，统一去相关和聚类
理论深度	5	完整的理论分析，四种崩塌均有证明保证
实验充分性	3	中小规模数据验证充分，缺乏大规模实验
写作质量	4	结构清晰，理论推导严谨
实用价值	4	简化 SSL 训练管线，但需大规模验证
综合	4.2	理论贡献突出的方法论文，实验规模待扩展