跳转至

Weak-SIGReg: Covariance Regularization for Stable Deep Learning

会议: ICLR 2026
arXiv: 2603.05924
代码: GitHub
领域: 优化稳定性 / 表征正则化
关键词: covariance regularization, optimization stability, ViT, SIGReg, representation collapse, random sketching

一句话总结

将 LeJEPA 的 SIGReg 正则化从自监督学习迁移到监督学习,并提出计算高效的 Weak-SIGReg 变体——只约束协方差矩阵趋向单位矩阵(而非全部矩),用随机投影将内存从 \(O(C^2)\) 降至 \(O(CK)\),在 ViT 无 BN/残差连接时将 CIFAR-100 准确率从 20.73%(坍缩)恢复到 72.02%,且匹配或超越专家精调的基线。

研究背景与动机

  1. 领域现状:现代神经网络训练依赖 Batch Normalization、残差连接等架构先验来稳定优化。在自监督学习中,VICReg/Barlow Twins 等方法已证明协方差正则化能防止表征坍缩。
  2. 现有痛点
  3. 去除 BN/残差后,或在小数据+强增强的低偏置架构(ViT)上,训练常崩溃(准确率 ~20%,退化为随机猜测)
  4. 现有解决方案依赖精细的超参数调优(特定权重衰减、初始化方案、位置嵌入类型、学习率调度),脆弱且不通用
  5. 自监督学习中的协方差正则化(VICReg、SIGReg)尚未被系统性地应用到监督学习中
  6. 核心矛盾:优化稳定性依赖架构 trick 而非原理性方法——能否用正则化替代架构先验?
  7. 核心 idea:从交互粒子系统视角——将隐层表征视为在随机动力学下演化的粒子,训练中的"随机通量"(有限 batch、高学习率、数据增强)导致表征密度漂移到退化状态(维度坍缩),通过约束表征分布趋向各向同性高斯来防止

方法详解

整体框架

编码器 \(f_\theta\) 输出 batch 表征 \(Z \in \mathbb{R}^{N \times C}\) → 随机投影 \(S \in \mathbb{R}^{C \times K}\) 降维为 \(ZS\) → 计算投影后的协方差 → 用 Frobenius 范数约束协方差趋向单位矩阵 → 作为正则化项加入总损失

关键设计

  1. Strong SIGReg(来自 LeJEPA)
  2. 做什么:匹配经验特征函数(ECF)与高斯解析特征函数
  3. 通过随机投影到 \(K\) 维空间后匹配 CF
  4. 理论上约束所有矩(均值、协方差、偏度、峰度...),使表征趋向完美各向同性高斯
  5. 计算较重——需要评估特征函数

  6. Weak-SIGReg(本文贡献)

  7. 做什么:仅约束二阶矩(协方差),放弃高阶矩约束
  8. 核心假设:监督学习中防止维度坍缩主要需要协方差条件化,不需要完整的分布匹配
  9. 损失函数:\(\mathcal{L} = \mathcal{L}_{CE} + \lambda \|\text{Cov}(ZS) - I\|_F\)
  10. 其中 \(S \in \mathbb{R}^{C \times K}\) 是固定的随机投影矩阵(Johnson-Lindenstrauss 保证几何结构保持)
  11. 内存优势:直接计算 \(C \times C\) 协方差需要 \(O(C^2)\),随机投影后只需 \(O(CK)\)(如 \(C=1024, K=64\)
  12. 实现极简:~10 行 PyTorch 代码,plug-and-play
  13. 与 VICReg/Barlow Twins 的关系:类似但作为纯内部正则化器使用(不需要双塔/增强视图),直接在监督损失上叠加

  14. 物理直觉(交互粒子系统)

  15. 将 batch 中的表征视为在 Dean-Kawasaki 随机动力学下演化的粒子
  16. "随机通量"(SGD 噪声、小 batch、强增强)→ 表征密度漂移到低维流形(坍缩)
  17. SIGReg 约束表征密度趋向各向同性高斯 → 防止密度退化
  18. Strong SIGReg = 约束密度趋向完美球形;Weak-SIGReg = 仅约束协方差(允许更灵活的几何形状但防止坍缩)

训练策略

  • 作为正则化项添加到标准 CE 损失
  • 所有实验使用梯度裁剪(norm=1.0)确保公平对比
  • 随机投影矩阵 \(S\) 在训练前生成并固定

实验关键数据

ViT on CIFAR-100(无 BN/无残差)

配置 SIGReg Top-1 Acc 状态
AdamW 基线 20.73% 坍缩
AdamW Strong (LeJEPA) 70.20% 收敛
AdamW Weak (本文) 72.02% 收敛

→ Weak-SIGReg 不仅恢复训练,甚至略优于计算更重的 Strong SIGReg

vs 专家精调

设置 SIGReg Top-1 Acc
专家精调基线(特定 weight decay + init + PE + LR schedule) 70.76%
专家精调 + Strong 72.71%
专家精调 + Weak 71.65%

→ Weak-SIGReg 无需精调就匹配专家调优的性能——作为"鲁棒默认稳定器"的实用价值

Vanilla MLP(6 层,纯 SGD,无 BN/无残差)

增强 SIGReg Top-1 Acc
26.77%
Strong 35.99%
Weak 42.17%

→ 在极端设置下(6 层无 BN 的 MLP + 纯 SGD),Weak-SIGReg 提供更大改善——说明协方差约束有效充当"软 Batch Normalization"

关键发现

  • Weak ≥ Strong:在所有设置中 Weak-SIGReg 匹配或超越 Strong SIGReg——说明监督学习中二阶矩约束就够了,不需要匹配完整分布
  • 20.73% → 72.02%:SIGReg 从"完全坍缩"恢复到"正常训练"——不是微小改善,而是质的修复
  • 替代架构 trick:SIGReg 可以功能性地替代 BN 和残差连接的稳定化作用
  • 随机投影使高维协方差正则化实际可行——否则 \(1024 \times 1024\) 的协方差矩阵计算和存储成本太高

亮点与洞察

  • 从 SSL 到监督学习的迁移:VICReg/Barlow Twins/SIGReg 都在 SSL 中出现——本文证明同样的思想作为监督正则化也极为有效
  • 交互粒子系统的物理直觉很有吸引力——将训练动力学理解为随机粒子演化,稳定性=防止密度退化
  • 极简实现(~10 行代码)使其高度实用——任何训练 pipeline 都可以直接添加
  • 弱 > 强的结论反直觉但有意义:监督信号已经提供了方向性约束,只需要防止坍缩(二阶矩),不需要强制分布形状(所有矩)

局限性 / 可改进方向

  • 仅在 CIFAR-100 上验证——ImageNet 规模的效果未知
  • 与标准 BN+残差架构的性能差距未量化(72% vs BN+残差可能更高)
  • 随机投影维度 \(K\) 的选择对不同层/不同架构的敏感度未分析
  • 正则化强度 \(\lambda\) 的调优指南缺失
  • 未在 NLP 模型(如 Transformer LM)上测试

相关工作与启发

  • vs VICReg:VICReg 用方差+不变性+协方差三项正则化 SSL 表征;Weak-SIGReg 仅用协方差项作为监督正则化
  • vs Batch Normalization:BN 是架构内嵌的均值/方差标准化;SIGReg 是损失函数级的协方差约束——更表达力强且可控
  • vs LeJEPA 的 SIGReg:LeJEPA 用 Strong SIGReg 做 SSL;本文证明 Weak 版本在监督下更好且更高效

评分

  • 新颖性: ⭐⭐⭐ 主要是将已有技术(SIGReg)迁移到新场景(监督学习)+ 提出简化变体
  • 实验充分度: ⭐⭐⭐ CIFAR-100 规模有限,仅 2 种架构(ViT + MLP)
  • 写作质量: ⭐⭐⭐⭐ 物理直觉清晰,实现代码内嵌直观
  • 价值: ⭐⭐⭐⭐ 极简实用的稳定化工具,"20% → 72%"的修复效果令人印象深刻