Soft Equivariance Regularization for Invariant Self-Supervised Learning¶
会议: ICLR 2026
arXiv: 2603.06693
代码: https://github.com/aitrics-chris/SER
领域: 自监督学习
关键词: self-supervised learning, equivariance, invariance, ViT, regularization
一句话总结¶
提出 SER(Soft Equivariance Regularization),通过在 ViT 中间层施加软等变正则化、在最终层保持不变性目标的层解耦设计,在不引入额外模块的情况下,为不变性 SSL 方法(MoCo-v3, DINO, Barlow Twins)带来一致的分类精度和鲁棒性提升。
研究背景与动机¶
-
领域现状:自监督学习(SSL)主流范式是通过对比学习或冗余消减学习对语义保持增强(如随机裁剪、颜色抖动)不变的表征。代表方法包括 MoCo-v3、DINO、Barlow Twins 等。
-
现有痛点:强不变性学习会抑制与变换相关的结构信息(如旋转、翻转、尺度线索),这些信息对几何鲁棒性和空间敏感的下游任务(如目标检测)有用。已有工作尝试在不变性 SSL 基础上加入等变性目标,但通常将两个目标施加在同一个最终表征上。
-
核心矛盾:最终表征通常是空间坍缩的(如 ViT 的 [CLS] token 或全局平均池化),不适合定义空间群操作;在此层强制等变性会导致与不变性目标的冲突——作者实验发现:将等变正则化推向更深层,等变性分数提高,但 ImageNet-1k 线性评估精度反而下降。
-
本文要解决什么? 如何在不改变基线 SSL 架构和目标的前提下,优雅地将等变性引入不变性 SSL,避免不变性-等变性的权衡冲突?
-
切入角度:作者观察到不变性和等变性应该在不同层施加——层解耦(layer decoupling)设计。中间层的空间 token map 保留了网格结构,天然适合定义解析的群操作。
-
核心idea一句话:在 ViT 中间层的空间 token map 上用解析群操作施加软等变正则化,在最终层保持原始不变性 SSL 目标不变。
方法详解¶
整体框架¶
SER 的 pipeline 如下:输入图像 → 数据增强 → ViT 编码器 → 中间层产出空间 token map(施加等变正则化)→ 后续层产出 [CLS] token(施加不变性 SSL 损失)→ 输出表征。
关键设计是将 ViT 编码器 \(f\) 分解为两部分:\(f = f^{(2)} \circ f^{(1)}\),其中 \(f^{(1)}\) 输出保留空间结构的 token map(无 [CLS] token),\(f^{(2)}\) 在输入时才插入 [CLS] token 并产出最终嵌入。
关键设计¶
- 层解耦策略:
- 做什么:将不变性和等变性目标解耦到不同层
- 核心思路:中间层(如第 3 层)的空间 token map 保留 \(H_f \times W_f\) 的网格结构,可以直接用解析群操作 \(\rho_g\) 变换 token 排列;最终层的 [CLS] token 空间已坍缩,只施加不变性损失
-
设计动机:实验发现将等变正则化推向更深层时,等变性分数增加但分类精度下降(Table 4),存在最优中间位置(第 3 层为 sweet spot)
-
解析特征空间群操作 \(\rho_g\):
- 做什么:在特征空间直接定义几何变换的操作,无需学习额外的变换网络
- 核心思路:群 \(\mathcal{G}\) 由可逆几何变换组成(90° 旋转、水平翻转、各向异性缩放但不裁剪)。离散旋转和翻转对应 token 排列置换;缩放用确定性网格重采样实现,保持与输入空间相同的插值方式
-
设计动机:避免引入辅助变换/动作模块(如 EquiMod 的变换网络),也不需要学习或预测逐样本的变换编码/标签,仅增加 \(1.008\times\) 训练 FLOPs
-
批次分区与增强策略:
- 做什么:将 mini-batch 分为 \(b_1\)(使用标准增强)和 \(b_2\)(使用可逆增强)
- 核心思路:标准 SSL 的 RandomResizedCrop 包含裁剪操作,裁剪不可逆且不构成群,无法定义有效的相对变换 \(g = g_2 g_1^{-1}\)。因此 \(b_2\) 使用 \(\mathcal{T}_{eq} = \mathcal{T} \setminus \{\text{Random Crop}\} \cup \{\text{Rotation } 90°\}\),保留光度增强但用可逆几何变换替代裁剪。两个子批次都参与不变性损失,只有 \(b_2\) 额外参与等变正则化
-
设计动机:确保等变性损失中的相对变换 \(g\) 是良定义的群元素
-
[CLS] token 延迟插入:
- 做什么:将 [CLS] token 的插入从输入层推迟到等变正则化层之后(即 \(f^{(2)}\) 的输入)
- 核心思路:如果 [CLS] token 从第一层就参与注意力,会破坏中间层 token map 的空间规则性
- 设计动机:保持 \(f^{(1)}\) 输出的纯空间 token map 结构,使群操作可以精确定义
损失函数 / 训练策略¶
等变正则化使用逐 patch 的 NT-Xent 对比损失:
其中 \(s(x,y) = \frac{1}{\tau} \frac{x^\top y}{\|x\| \|y\|}\),\(\tau\) 为温度系数(MoCo-v3/BT 用 0.3,DINO 用 0.5)。
总损失为:\(\mathcal{L} = \mathcal{L}_{\text{inv1}} + \mathcal{L}_{\text{inv2}} + \lambda \mathcal{L}_{\text{equiv}}\)
训练使用 AdamW,batch size 2048,100 epochs,10-epoch warmup + cosine decay。
实验关键数据¶
主实验¶
| 方法 | Views | ImageNet Top-1 | ImageNet-Sketch Top-1 | ImageNet-V2 Top-1 | ImageNet-R Top-1 |
|---|---|---|---|---|---|
| MoCo-v3 | 2 | 68.44 | 17.65 | 56.54 | 18.59 |
| +AugSelf | 2 | 67.55 | 13.30 | 53.74 | 17.62 |
| +STL | 2 | 65.49 | 15.40 | 55.43 | 17.22 |
| +SER | 2 | 69.28 | 17.68 | 56.95 | 18.95 |
| +EquiMod | 3 | 68.95 | 14.81 | 56.31 | 16.54 |
| +E-SSL | 2+4 | 70.60 | 19.23 | 58.33 | 19.86 |
| +SER | 2+4 | 71.56 | 19.76 | 59.50 | 20.27 |
在严格匹配的 2-view 设置下,SER 是唯一提升 MoCo-v3 精度的等变 add-on(+0.84),其他方法反而降低精度。
消融实验¶
| 配置 | Equiv Loss Layer | ImageNet Top-1 | Rotation Equiv ↑ |
|---|---|---|---|
| MoCo-v3 (baseline) | - | 68.44 | 0.804 |
| MoCo + SER | Layer 3 | 69.28 | 0.840 |
| MoCo + SER | Layer 9 | 68.72 | 0.888 |
| MoCo + SER | Layer 12 | 68.18 | 0.924 |
| +SER, λ=0 (control) | Layer 3 | 68.82 | - |
| +SER, λ>0 (full) | Layer 3 | 69.28 | - |
关键发现¶
- 层解耦是核心:等变正则化在第3层(共12层 ViT)效果最好,推向更深层会损害分类精度,即使等变性分数更高
- 层解耦是通用设计原则:将 EquiMod 的等变目标从 Layer 12 移到 Layer 3,Top-1 从 68.95→69.51;AugSelf 从 67.55→68.23
- 等变损失本身有效:控制实验 λ=0 时仅有 +0.38 提升(来自批次分区/增强变化),启用 ℒ_equiv 后额外提升至 +0.84
- 跨 SSL 方法一致有效:DINO +0.26, Barlow Twins +0.68
- 空间敏感任务提升更大:COCO 检测 +1.7 mAP,ImageNet-C/P +1.11/+1.22
亮点与洞察¶
- 层解耦设计原则:不变性和等变性不应在同一层施加。这个发现超越了 SER 本身——将其应用到 EquiMod、AugSelf 也能提升精度。这是一个可以广泛迁移到多目标正则化场景的设计思想。
- 解析群操作替代学习模块:利用 ViT patch grid 的规则结构,旋转/翻转直接作为 token 置换,避免引入任何额外参数——极简但有效。
- 批次分区处理不可逆增强:巧妙地将 batch 分为两部分,一部分遵循标准增强流程(含裁剪),一部分用可逆增强;两者都参与不变性损失,只有后者参与等变正则化。这解决了"裁剪不构成群"的根本问题。
局限性 / 可改进方向¶
- 仅在 ViT-S/16 上验证,未验证更大模型(ViT-B/L)和更长训练(300/800 epochs)
- 群 \(\mathcal{G}\) 仅包含离散变换(90° 旋转、翻转、缩放),未探索连续旋转等更丰富的变换群
- 批次分区策略中 \(b_2\) 不使用裁剪,可能影响多样性;理想方案是设计"可逆裁剪"
- 等变正则化的最优层位置(第 3 层)可能随模型规模变化,需要重新调参
- 增加的计算开销虽然极小(1.008×),但 patch-wise 对比损失的负样本数量随 batch size 和空间分辨率二次增长
相关工作与启发¶
- vs EquiMod: EquiMod 引入辅助变换网络在最终层施加等变性,多用一个 view(3-view);SER 用解析操作在中间层施加,无额外参数,且 2-view 精度更高
- vs E-SSL: E-SSL 使用 2+4 multi-crop 隐式鼓励等变性;在匹配的 2+4 view 设置下 SER 仍优于 E-SSL(71.56 vs 70.60)
- vs AugSelf: AugSelf 通过预测变换参数隐式学习等变性,在 2-view 下反而降低精度(67.55 < 68.44);SER 在相同设置下提升精度
评分¶
- 新颖性: ⭐⭐⭐⭐ 层解耦设计原则有洞察力,但核心组件(等变对比损失)并非全新
- 实验充分度: ⭐⭐⭐⭐⭐ 严格的匹配 view 对比、多 SSL 基线、多数据集、详尽消融
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,实验设计缜密,符号使用规范
- 价值: ⭐⭐⭐⭐ 层解耦作为通用设计原则有推广价值,但绝对提升幅度有限