Collapse-Proof Non-Contrastive Self-Supervised Learning¶
会议: ICML 2025
arXiv: 2410.04959
作者: Emanuele Sansone, Tim Lebailly, Tinne Tuytelaars (KU Leuven)
领域: 自监督学习
关键词: 非对比自监督学习, 崩塌避免, 超维计算, 特征去相关, 聚类表示
一句话总结¶
提出 FALCON 方法,基于超维计算 (hyperdimensional computing) 原理设计投影器和损失函数,理论证明可同时避免四种已知训练失败模式(表示崩塌、维度崩塌、聚类崩塌、簇内崩塌),并使表征自然具备去相关和聚类特性。
研究背景与动机¶
自监督学习 (SSL) 虽在无标签数据上取得巨大成功,但训练过程中存在多种 失败模式 (failure modes),限制了方法的可靠性和广泛应用:
表示崩塌 (Representation Collapse): 所有输入的表示坍缩到同一常向量
维度崩塌 (Dimensional Collapse): 嵌入仅占据向量空间的低维子空间
聚类崩塌 (Cluster Collapse): 数据点仅被分配到可用原型的子集
簇内崩塌 (Intracluster Collapse): 同一聚类内样本的表示差异趋近于零
现有方法(如动量编码器、停止梯度、非对称投影头等)都是启发式策略,无法从理论上保证避免所有崩塌。特征去相关方法(如 Barlow Twins)和聚类方法(如 SwAV)分别处理部分崩塌,但尚无统一解决方案。
本文目标:找到一组充分条件,保证同时避免所有四种崩塌,并据此设计简洁的投影器和损失函数。
方法详解¶
整体框架¶
FALCON (FAiLure-proof non-CONtrastive SSL) 方法包含以下流程:
- 对无标签数据生成增强对 \((X, X')\)
- 编码器 \(g: \mathbb{R}^d \to \mathbb{R}^f\) 提取表示 \(Z = g(X)\)
- FALCON 投影器生成嵌入和概率分配
- 使用 FALCON 损失函数训练
投影器设计¶
投影器执行两步操作:
其中关键设计: - 字典矩阵 \(\mathbf{W} \in \{-1, 1\}^{f \times c}\):元素独立采样自 Rademacher 分布 - 温度参数 \(\tau = \sqrt{f/n} \cdot \log\frac{1 - \epsilon(c-1)}{\epsilon}\) - 字典大小 \(c \gg f\)(超完备字典)
这一设计的核心创新来自超维计算:随机 Rademacher 向量在高维空间中近似正交:
这使得 \(c\) 可远大于 \(f\),突破正交向量数量 \(\leq f\) 的限制。
损失函数¶
- 第一项(不变性损失): 鼓励增强对产生一致分配,可分解为熵项 + KL散度项
- 第二项(先验匹配损失): 强制分配分布匹配先验 \(\mathbf{q}\)(均匀分布),防止聚类崩塌
- \(\beta > 0\) 平衡两项
关键理论保证¶
定理(嵌入): 在最优解处,每个嵌入与字典中恰好一个码字对齐:
推论1(完美对齐): 当 \(c \to \infty\),\(\mathbf{h}_i = \frac{1}{\sqrt{n}} \mathbf{w}_j\)
推论2(对角协方差): \(\mathbf{H}^T\mathbf{H} = \mathbf{I}\),即嵌入特征完全去相关
推论3(块对角邻接): 邻接矩阵 \(\mathbf{H}\mathbf{H}^T\) 为块对角矩阵,等大小块 \(n/c\),即天然聚类
实验关键数据¶
主实验:下游任务泛化性能(Table 1)¶
| 方法 | SVHN NMI | CIFAR-10 NMI | CIFAR-100 NMI | SVHN Acc. | CIFAR-10 Acc. | CIFAR-100 Acc. |
|---|---|---|---|---|---|---|
| Barlow Twins | 0.06 | 0.05 | 0.10 | 0.76 | 0.65 | 0.28 |
| SwAV | 0.03 | 0.29 | 0.12 | 0.45 | 0.56 | 0.10 |
| Self-Classifier | 0.07 | 0.28 | 0.26 | 0.58 | 0.59 | 0.15 |
| GEDI | 0.07 | 0.29 | 0.25 | 0.58 | 0.64 | 0.38 |
| FALCON (c=16384) | 0.31 | 0.35 | 0.58 | 0.78 | 0.68 | 0.41 |
ImageNet-100 线性探测结果(Table 2,ViT-small,100 epochs)¶
| 方法 | c=100 | c=500 | c=1K | c=5K | c=10K | c=50K | c=100K | c=200K | c=300K | c=500K |
|---|---|---|---|---|---|---|---|---|---|---|
| DINO Top-1 | 64.1% | 65.8% | 65.1% | 65.7% | 66.6% | 67.5% | 67.7% | 68.3% | 67.0% | 67.2% |
| FALCON Top-1 | 64.9% | 68.4% | 70.2% | 72.2% | 72.9% | 73.9% | 72.2% | 73.9% | 73.6% | 74.0% |
| DINO Top-5 | 87.0% | 88.6% | 88.7% | 87.7% | 89.2% | 89.2% | 89.4% | 89.8% | 89.2% | 89.9% |
| FALCON Top-5 | 87.7% | 89.9% | 91.2% | 91.7% | 92.3% | 92.6% | 92.6% | 92.9% | 92.8% | 92.9% |
关键发现¶
- 字典大小的单调增益: 聚类和分类性能随字典大小 \(c\) 单调提升,FALCON 是唯一能系统性利用大字典的方法
- 崩塌完全避免: 协方差矩阵随 \(c\) 增大趋向对角,邻接矩阵块大小缩小,奇异值分布更均匀
- 超越 DINO: 在 ImageNet-100 上,FALCON 显著优于 DINO 且设计更简洁(无需停止梯度、教师中心化、EMA 等)
亮点与洞察¶
- 首次将超维计算与 SSL 结合:利用高维随机向量的准正交性突破字典大小限制,是极有创意的跨领域联接
- 理论驱动的设计:每个组件(Rademacher 字典、L2 归一化、大字典)都有明确的理论动机,而非凭经验调参
- 统一框架:同时实现特征去相关(Barlow Twins 族)和聚类(SwAV 族)的优势,理论证明两者可共存
- 极简设计:无需动量编码器、停止梯度、Sinkhorn 聚类层等常见 SSL 技巧,训练管线大幅简化
局限性¶
- 实验规模有限: 主实验使用 ResNet-8 在 SVHN/CIFAR 上验证,ImageNet-100 使用小 ViT;未在 ImageNet-1K 或更大数据上验证
- 仅考虑均匀先验: 理论分析限于 \(q_j = 1/c\) 的情况,非均匀先验(现实数据中更常见)未深入探讨
- 训练不稳定性: 在 ImageNet-100 上出现训练不稳定(部分码字初期未使用),需将 KL 匹配改为反向 KL
- 骨干网络容量假设: 主要理论结果假设骨干网络具有无限容量,有限容量下仅有部分保证
相关工作与启发¶
- Barlow Twins (Zbontar et al., 2021): 通过交叉协方差对角化避免维度崩塌,但不处理聚类崩塌
- SwAV (Caron et al., 2020): Sinkhorn 聚类层处理聚类崩塌,但需额外启发式
- DINO (Caron et al., 2021): 需要不对称设计(停止梯度、教师中心化、EMA),FALCON 在更简单设计下超越
- VICReg (Bardes et al., 2022): 方差-不变性-协方差正则化
- 本文的超维计算视角可能启发更多 SSL 与高维随机结构的交叉研究
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 创新性 | 5 | 超维计算与 SSL 的首次结合,统一去相关和聚类 |
| 理论深度 | 5 | 完整的理论分析,四种崩塌均有证明保证 |
| 实验充分性 | 3 | 中小规模数据验证充分,缺乏大规模实验 |
| 写作质量 | 4 | 结构清晰,理论推导严谨 |
| 实用价值 | 4 | 简化 SSL 训练管线,但需大规模验证 |
| 综合 | 4.2 | 理论贡献突出的方法论文,实验规模待扩展 |
相关论文¶
- [ICML 2025] Generalization Analysis for Supervised Contrastive Representation Learning under Non-IID Settings
- [ICLR 2026] Why Prototypes Collapse: Diagnosing and Preventing Partial Collapse in Prototypical Self-Supervised Learning
- [ICML 2025] ReSA: Clustering Properties of Self-Supervised Learning
- [ACL 2025] WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning
- [ICML 2025] CLARIFY: Contrastive Preference Reinforcement Learning for Untangling Ambiguous Queries