T-REGS: Minimum Spanning Tree Regularization for Self-Supervised Learning¶

会议: NeurIPS 2025
arXiv: 2510.23484
代码: GitHub (available)
领域: 自监督学习 / 表示学习 / 正则化
关键词: 自监督学习, 最小生成树, 维度坍缩, 均匀性, 正则化

一句话总结¶

提出 T-REGS——一种基于最小生成树(MST)长度最大化的自监督学习正则化框架，理论证明可同时防止维度坍缩并促进表示分布均匀性，在紧致黎曼流形上成立，实验在标准 JE-SSL 基准上验证了有效性。

研究背景与动机¶

领域现状：联合嵌入自监督学习（JE-SSL）通过让同一图像不同视图的嵌入相似来学习表示。核心挑战是防止表示坍缩（所有输入映射到相同向量）和维度坍缩（表示仅占低维子空间）。
现有痛点：
对比方法（SimCLR、MoCo）需要大量负样本和大批量，计算开销大
冗余缩减方法（BarlowTwins、VICReg）仅利用协方差矩阵（二阶矩），对分布的集中点等高阶信息视而不见，无法保证收敛到均匀分布
非对称方法（BYOL、DINO）缺乏理论解释为何非对称架构能防止坍缩
Fang et al. 提出的最优传输正则化计算昂贵，且闭式加速公式仅在球面上成立、存在数值稳定性问题
核心矛盾：好的 SSL 正则化需要同时满足四项性质（实例置换不变、实例克隆、特征克隆、特征约束），现有方法要么无法全部满足，要么计算成本高。
本文要解决什么：设计一种概念简单、计算高效、理论上可证明防止维度坍缩和促进均匀性的 SSL 正则化方法。
切入角度：MST 长度是分布熵的经典估计量（Steele 定理），最大化 MST 长度等价于最大化表示分布的 Rényi 熵，自然促进均匀性。同时 MST 长度对点云的维度敏感，可自然检测和避免维度坍缩。
核心idea一句话：通过最大化嵌入空间中最小生成树的长度（加球面约束），一个简单的正则项同时解决维度坍缩和非均匀性问题。

方法详解¶

整体框架¶

T-REGS 框架将 T-REG 正则化应用于 JE-SSL 的两个分支。每个分支独立计算 MST 长度并最大化。整体损失为视图不变性损失（如 MSE 或已有 SSL 方法的损失）+ T-REG 正则化。

关键设计¶

MST 长度最大化损失 \(\mathcal{L}_E\)：
做什么：最大化嵌入点云 \(Z\) 的最小生成树长度
核心思路：\(\mathcal{L}_E(Z) = -\frac{1}{n} E(\text{MST}(Z))\)。MST 中每条边连接的两个点会产生排斥力（梯度公式简洁：\(\nabla_x E = \sum_{(x,z) \in \text{MST}} \frac{x-z}{\|x-z\|_2}\)）。可利用 GPU 并行的 MST 算法高效计算
设计动机：MST 长度与 Rényi \(\frac{d-1}{d}\)-熵相关（Steele 定理），最大化 MST 长度 → 最大化熵 → 趋向均匀分布
球面约束 \(\mathcal{L}_S\)：
做什么：软约束嵌入点到单位球面
核心思路：\(\mathcal{L}_S(Z) = \frac{1}{n} \sum_i (\|z_i\|_2 - 1)^2\)，防止单纯最大化 MST 长度导致点无限发散
组合为 T-REG：\(\mathcal{L}_{\text{T-REG}}(Z) = \gamma \mathcal{L}_E(Z) + \lambda \mathcal{L}_S(Z)\)
理论保证：
小样本行为（定理4.1）：当 \(n \leq d+1\) 时，MST 长度在球面上取最大值于正则单纯形顶点——即点自然扩散到球面上最大间隔配置
大样本渐近（定理4.4 + 命题4.5）：当 \(n \to \infty\)，在紧致黎曼流形上，最大化 MST 长度等价于最大化对 Rényi 熵的估计量，其唯一最大值在均匀分布处取得。并且更高维流形上的均匀分布有更大的上界，自然鼓励全维度使用

使用方式¶

T-REGS 可作为：(a) 独立正则化——仅用 MSE + T-REG 替代全部 SSL 方法；(b) 辅助损失——叠加到已有方法（VICReg、BarlowTwins 等）上增强性能。

实验关键数据¶

主实验¶

在 CIFAR-10、CIFAR-100、STL-10、Tiny-ImageNet 上使用 ResNet-18/50 进行标准 SSL 评估（线性探测、KNN）。

方法	关键指标	说明
T-REGS (standalone)	与 VICReg/BarlowTwins 可比	仅用 MSE + T-REG，无需负样本或协方差正则化
VICReg + T-REG	优于 VICReg	作为辅助损失提升现有方法
BarlowTwins + T-REG	优于 BarlowTwins	同上

消融实验¶

配置	结果
仅 \(\mathcal{L}_E\)（无球面约束）	点发散到无穷，无法收敛
仅 \(\mathcal{L}_S\)	无正则化效果
T-REG 完整	稳定收敛到球面均匀分布
高维（256维）合成数据	成功收敛到正则单纯形

关键发现¶

MST 正则化确实防止维度坍缩：嵌入的有效维度（rank）显著高于未使用 T-REG 的基线
均匀性提升：T-REG 使表示在球面上更均匀分布，优于仅做协方差正则化
作为辅助损失普遍有效：叠加 T-REG 到多种已有方法上均带来一致提升
满足 Fang et al. 的四项性质：理论证明 T-REG 满足 instance permutation、instance cloning、feature cloning、feature baby 四项性质

亮点与洞察¶

从拓扑数据分析到 SSL 的优美连接：MST 长度通过 Steele 定理和 Rényi 熵与均匀性直接相关，这个连接既自然又强大
概念最简的 SSL 正则化：相比 VICReg 的多项损失或对比学习的负样本机制，"最大化 MST 长度 + 球面约束"极其简洁
在黎曼流形上的通用理论：不限于欧式空间或球面，理论对任意紧致黎曼流形成立

局限性 / 可改进方向¶

MST 计算成本：尽管有 GPU 并行算法，MST 计算仍至少 \(O(n^2)\)，对非常大的 batch size 可能成为瓶颈
超参数 \(\gamma, \lambda\) 的调节：两个权重参数控制扩散与约束的平衡，需要经验调参
大规模实验有限：主要实验在 CIFAR/STL/Tiny-ImageNet 上，缺乏 ImageNet-1K 级别的验证
与 DINO/DINOv2 等 SOTA 方法的对比：未与当前最强的自监督方法直接对比

评分¶

新颖性: ⭐⭐⭐⭐ MST 正则化用于 SSL 是新颖的跨领域迁移，理论elegant
实验充分度: ⭐⭐⭐ 合成数据和中等规模验证充分，但缺乏大规模实验