Exploring Structural Degradation in Dense Representations for Self-supervised Learning¶

会议: NeurIPS 2025
arXiv: 2510.17299
代码: GitHub
领域: Segmentation / Self-supervised Learning
关键词: 自监督学习, 稠密表示, 性能退化, 模型选择, 正则化

一句话总结¶

发现并系统研究了自监督学习中"稠密退化"（SDD）现象——训练越久分类越好但稠密任务性能反而下降，提出 DSE 度量和基于 DSE 的模型选择/正则化策略，平均提升 mIoU 3.0%。

研究背景与动机¶

自监督学习（SSL）已在图像级表示学习中取得巨大成功，但稠密（patch/pixel 级）表示学习改善有限。本文发现了一个反直觉现象：

Self-supervised Dense Degradation (SDD)：虽然训练损失收敛且分类性能稳步提升，但语义分割等稠密任务的性能在训练后期反而下降

普遍性：SDD 在 16 种 SOTA SSL 方法中一致出现，涵盖对比学习（MoCo v3, DenseCL）、非对比学习（BYOL, SimSiam, DINO）、基于聚类（SwAV）、掩码建模（MAE, I-JEPA）等各种范式

非过拟合：即使训练和评估使用同一数据集（COCO），SDD 仍然存在（DINO 下降 4.0% mIoU）

现有度量失效：α-REQ、RankMe、Lidar 等指标主要面向图像级任务，与稠密性能负相关

方法详解¶

整体框架¶

基于误差率分解理论，提出 Dense representation Structure Estimator（DSE），由类可分性度量和有效维度度量组成：

\[\text{DSE} = M_{inter} - M_{intra} + \lambda \cdot M_{dim}\]

关键设计¶

理论基础： - 定理 2（类相关度量）：证明当类内半径（通过归一化表示矩阵的trace估计）小于类间距离时，简单的 NN 分类器即可正确分类 - 推论 5（维度影响）：证明下游错误率随表示维度 $d$ 指数衰减：$\text{Err} \leq \delta + 2K\exp(-\tilde{C}_\delta \cdot d)$

类可分性度量： - 使用 k-means 聚类生成伪标签 - 类内半径：$M_{intra} = \frac{1}{k}\sum_{j=1}^{k} \frac{\sum_{i=1}^{\min(\tilde{N}_j, d)} \sigma_i(\tilde{Z}_c^j)}{(\tilde{N}_j - 1)}$ - 类间距离：$M_{inter} = \frac{1}{k}\sum_{j=1}^{k} \frac{1}{N_j}\sum_{z \in \tilde{Z}_j} \min_{i \neq j} \|z - \tilde{\mu}_i\|^2$

有效维度度量： - 随机采样 $B'$ 个独立稠密表示，计算有效秩：$M_{dim} = \text{Erank}(\bar{Z}) = \exp(-\sum_i p_i \log p_i)$

自适应缩放：$\lambda = \text{Std}(M_{inter} - M_{intra}) / \text{Std}(M_{dim})$

损失函数 / 训练策略¶

DSE 引导的模型选择（离线）： 1. 对所有检查点计算 DSE 2. 选择 DSE 的局部最大值点作为候选 3. 取 top-3 最高 DSE 值的检查点

DSE 正则化（在线）： $$\mathcal{L} = \mathcal{L}_{original} - \beta \cdot \text{DSE}$$ 其中 $\lambda = 1$，$\beta = 0.001$，从最佳初始性能的检查点开始训练 10 个 epoch。

实验关键数据¶

主实验¶

16 种 SSL 方法的 SDD 现象（COCO-Stuff/PASCAL VOC/ADE20k/Cityscapes 上的 Best vs Last mIoU 差距）：

方法	COCO Diff	VOC Diff	ADE20k Diff	Cityscapes Diff
MoCo v3	-22.0	-45.2	-14.4	-11.5
DINO	-4.4	-11.3	-4.2	-0.1
iBOT	-2.5	-3.0	-3.7	-3.2
I-JEPA	-5.6	-7.6	-4.5	-3.9
BYOL	-6.4	-6.7	-7.9	-7.5
MAE	-0.4	-1.3	-0.7	-2.1

DSE 模型选择效果（+MS 表示模型选择后的提升）：

方法	COCO mIoU	VOC mIoU
MoCo v3	15.1 → 30.9 (+15.8)	5.9 → 42.0 (+36.1)
BYOL	30.7 → 37.1 (+6.4)	45.4 → 51.1 (+5.7)
I-JEPA	34.0 → 39.6 (+5.6)	52.6 → 59.3 (+6.7)
EsViT	33.4 → 41.6 (+8.2)	54.3 → 59.8 (+5.5)

消融实验¶

DSE 与其他度量对比（平均 Kendall's τ）：

度量	COCO	VOC	ADE20k	City	平均
α-ReQ	-0.07	-0.05	-0.05	0.09	-0.02
RankMe	-0.10	-0.09	-0.14	0.00	-0.08
Lidar	-0.37	-0.36	-0.26	-0.21	-0.30
RankMe† (稠密适配)	0.25	0.26	0.22	0.23	0.24
DSE (Ours)	0.58	0.60	0.56	0.49	0.57

DSE 组件消融（平均 Kendall's τ）：

类可分性	有效维度	COCO	VOC	ADE20k	City	平均
✓	✗	0.45	0.42	0.33	0.37	0.39
✗	✓	0.25	0.26	0.22	0.23	0.24
✓	✓	0.58	0.60	0.56	0.49	0.57

效率对比：

方法	平均改善	计算开销 (GPU·h)
Loss-based	-1.0	0.0
Supervised	+3.6	2.43
DSE (Ours)	+3.0	0.025 (~97× 加速)

关键发现¶

退化原因因方法而异：MoCo v3 是维度坍缩导致，DINO 是类可分性下降导致
DSE 正则化能逆转退化趋势：在 iBOT 和 I-JEPA 上，添加 DSE 正则化后性能不再下降
DSE 也推广到图像级任务：在 ImageNet k-NN 评估上平均 Kendall's τ 达 0.86，优于 RankMe 的 0.79
仅需极少数据：2048 张图像（~0.16% 训练数据）即可准确计算 DSE

亮点与洞察¶

现象发现的广泛性：16 种方法 × 4 个数据集 × 多种评估协议统一验证了 SDD 的存在，这是一个社区级别的重要发现
理论与实践的优雅统一：从误差率分解出发，推导出类可分性和维度两个因素，然后设计出可直接优化的 DSE 度量
实用价值极高：模型选择仅需 0.025 GPU·h，即可平均提升 3.0% mIoU
命题 1 的洞察：揭示了用 k-means 伪标签的实例级距离度量永远预测准确率为 1 的根本问题，进而设计类级半径度量

局限与展望¶

理论分析主要针对 linear probing 设置，未充分考虑 transfer learning 中的分布偏移
DSE 在深度估计等回归任务上的预测能力相对较弱（Kendall's τ 较低）
训练时 DSE 正则化需要模型特定的适配（如学生模型的稠密表示提取方式）
尚未深入分析各方法维度坍缩或可分性退化的具体机理

评分¶

新颖性：⭐⭐⭐⭐⭐ — 发现了社区未充分认识的重要现象
实验完整度：⭐⭐⭐⭐⭐ — 16 种方法 × 4 数据集的系统性验证
实用性：⭐⭐⭐⭐⭐ — 几乎零成本的模型选择策略
写作质量：⭐⭐⭐⭐⭐ — 从现象到理论到方法的逻辑链条非常清晰