Weak-SIGReg: Covariance Regularization for Stable Deep Learning¶

会议: ICLR 2026
arXiv: 2603.05924
代码: GitHub
领域: 优化稳定性 / 表征正则化
关键词: covariance regularization, optimization stability, ViT, SIGReg, representation collapse, random sketching

一句话总结¶

将 LeJEPA 的 SIGReg 正则化从自监督学习迁移到监督学习，并提出计算高效的 Weak-SIGReg 变体——只约束协方差矩阵趋向单位矩阵（而非全部矩），用随机投影将内存从 \(O(C^2)\) 降至 \(O(CK)\)，在 ViT 无 BN/残差连接时将 CIFAR-100 准确率从 20.73%（坍缩）恢复到 72.02%，且匹配或超越专家精调的基线。

研究背景与动机¶

领域现状：现代神经网络训练依赖 Batch Normalization、残差连接等架构先验来稳定优化。在自监督学习中，VICReg/Barlow Twins 等方法已证明协方差正则化能防止表征坍缩。
现有痛点：
去除 BN/残差后，或在小数据+强增强的低偏置架构（ViT）上，训练常崩溃（准确率 ~20%，退化为随机猜测）
现有解决方案依赖精细的超参数调优（特定权重衰减、初始化方案、位置嵌入类型、学习率调度），脆弱且不通用
自监督学习中的协方差正则化（VICReg、SIGReg）尚未被系统性地应用到监督学习中
核心矛盾：优化稳定性依赖架构 trick 而非原理性方法——能否用正则化替代架构先验？
核心 idea：从交互粒子系统视角——将隐层表征视为在随机动力学下演化的粒子，训练中的"随机通量"（有限 batch、高学习率、数据增强）导致表征密度漂移到退化状态（维度坍缩），通过约束表征分布趋向各向同性高斯来防止

方法详解¶

整体框架¶

编码器 \(f_\theta\) 输出 batch 表征 \(Z \in \mathbb{R}^{N \times C}\) → 随机投影 \(S \in \mathbb{R}^{C \times K}\) 降维为 \(ZS\) → 计算投影后的协方差 → 用 Frobenius 范数约束协方差趋向单位矩阵 → 作为正则化项加入总损失

关键设计¶

Strong SIGReg（来自 LeJEPA）
做什么：匹配经验特征函数（ECF）与高斯解析特征函数
通过随机投影到 \(K\) 维空间后匹配 CF
理论上约束所有矩（均值、协方差、偏度、峰度...），使表征趋向完美各向同性高斯
计算较重——需要评估特征函数
Weak-SIGReg（本文贡献）
做什么：仅约束二阶矩（协方差），放弃高阶矩约束
核心假设：监督学习中防止维度坍缩主要需要协方差条件化，不需要完整的分布匹配
损失函数：\(\mathcal{L} = \mathcal{L}_{CE} + \lambda \|\text{Cov}(ZS) - I\|_F\)
其中 \(S \in \mathbb{R}^{C \times K}\) 是固定的随机投影矩阵（Johnson-Lindenstrauss 保证几何结构保持）
内存优势：直接计算 \(C \times C\) 协方差需要 \(O(C^2)\)，随机投影后只需 \(O(CK)\)（如 \(C=1024, K=64\)）
实现极简：~10 行 PyTorch 代码，plug-and-play
与 VICReg/Barlow Twins 的关系：类似但作为纯内部正则化器使用（不需要双塔/增强视图），直接在监督损失上叠加
物理直觉（交互粒子系统）
将 batch 中的表征视为在 Dean-Kawasaki 随机动力学下演化的粒子
"随机通量"（SGD 噪声、小 batch、强增强）→ 表征密度漂移到低维流形（坍缩）
SIGReg 约束表征密度趋向各向同性高斯 → 防止密度退化
Strong SIGReg = 约束密度趋向完美球形；Weak-SIGReg = 仅约束协方差（允许更灵活的几何形状但防止坍缩）

训练策略¶

作为正则化项添加到标准 CE 损失
所有实验使用梯度裁剪（norm=1.0）确保公平对比
随机投影矩阵 \(S\) 在训练前生成并固定

实验关键数据¶

ViT on CIFAR-100（无 BN/无残差）¶

配置	SIGReg	Top-1 Acc	状态
AdamW 基线	无	20.73%	坍缩
AdamW	Strong (LeJEPA)	70.20%	收敛
AdamW	Weak (本文)	72.02%	收敛

→ Weak-SIGReg 不仅恢复训练，甚至略优于计算更重的 Strong SIGReg

vs 专家精调¶

设置	SIGReg	Top-1 Acc
专家精调基线（特定 weight decay + init + PE + LR schedule）	无	70.76%
专家精调 + Strong	—	72.71%
专家精调 + Weak	—	71.65%

→ Weak-SIGReg 无需精调就匹配专家调优的性能——作为"鲁棒默认稳定器"的实用价值

Vanilla MLP（6 层，纯 SGD，无 BN/无残差）¶

增强	SIGReg	Top-1 Acc
无	无	26.77%
无	Strong	35.99%
无	Weak	42.17%

→ 在极端设置下（6 层无 BN 的 MLP + 纯 SGD），Weak-SIGReg 提供更大改善——说明协方差约束有效充当"软 Batch Normalization"

关键发现¶

Weak ≥ Strong：在所有设置中 Weak-SIGReg 匹配或超越 Strong SIGReg——说明监督学习中二阶矩约束就够了，不需要匹配完整分布
20.73% → 72.02%：SIGReg 从"完全坍缩"恢复到"正常训练"——不是微小改善，而是质的修复
替代架构 trick：SIGReg 可以功能性地替代 BN 和残差连接的稳定化作用
随机投影使高维协方差正则化实际可行——否则 \(1024 \times 1024\) 的协方差矩阵计算和存储成本太高

亮点与洞察¶

从 SSL 到监督学习的迁移：VICReg/Barlow Twins/SIGReg 都在 SSL 中出现——本文证明同样的思想作为监督正则化也极为有效
交互粒子系统的物理直觉很有吸引力——将训练动力学理解为随机粒子演化，稳定性=防止密度退化
极简实现（~10 行代码）使其高度实用——任何训练 pipeline 都可以直接添加
弱 > 强的结论反直觉但有意义：监督信号已经提供了方向性约束，只需要防止坍缩（二阶矩），不需要强制分布形状（所有矩）

局限性 / 可改进方向¶

仅在 CIFAR-100 上验证——ImageNet 规模的效果未知
与标准 BN+残差架构的性能差距未量化（72% vs BN+残差可能更高）
随机投影维度 \(K\) 的选择对不同层/不同架构的敏感度未分析
正则化强度 \(\lambda\) 的调优指南缺失
未在 NLP 模型（如 Transformer LM）上测试

评分¶

新颖性: ⭐⭐⭐ 主要是将已有技术（SIGReg）迁移到新场景（监督学习）+ 提出简化变体
实验充分度: ⭐⭐⭐ CIFAR-100 规模有限，仅 2 种架构（ViT + MLP）
写作质量: ⭐⭐⭐⭐ 物理直觉清晰，实现代码内嵌直观
价值: ⭐⭐⭐⭐ 极简实用的稳定化工具，"20% → 72%"的修复效果令人印象深刻