Soft Equivariance Regularization for Invariant Self-Supervised Learning¶

会议: ICLR 2026
arXiv: 2603.06693
代码: https://github.com/aitrics-chris/SER
领域: 自监督学习
关键词: self-supervised learning, equivariance, invariance, ViT, regularization

一句话总结¶

提出 SER（Soft Equivariance Regularization），通过在 ViT 中间层施加软等变正则化、在最终层保持不变性目标的层解耦设计，在不引入额外模块的情况下，为不变性 SSL 方法（MoCo-v3, DINO, Barlow Twins）带来一致的分类精度和鲁棒性提升。

研究背景与动机¶

领域现状：自监督学习（SSL）主流范式是通过对比学习或冗余消减学习对语义保持增强（如随机裁剪、颜色抖动）不变的表征。代表方法包括 MoCo-v3、DINO、Barlow Twins 等。
现有痛点：强不变性学习会抑制与变换相关的结构信息（如旋转、翻转、尺度线索），这些信息对几何鲁棒性和空间敏感的下游任务（如目标检测）有用。已有工作尝试在不变性 SSL 基础上加入等变性目标，但通常将两个目标施加在同一个最终表征上。
核心矛盾：最终表征通常是空间坍缩的（如 ViT 的 [CLS] token 或全局平均池化），不适合定义空间群操作；在此层强制等变性会导致与不变性目标的冲突——作者实验发现：将等变正则化推向更深层，等变性分数提高，但 ImageNet-1k 线性评估精度反而下降。
本文要解决什么？ 如何在不改变基线 SSL 架构和目标的前提下，优雅地将等变性引入不变性 SSL，避免不变性-等变性的权衡冲突？
切入角度：作者观察到不变性和等变性应该在不同层施加——层解耦（layer decoupling）设计。中间层的空间 token map 保留了网格结构，天然适合定义解析的群操作。
核心idea一句话：在 ViT 中间层的空间 token map 上用解析群操作施加软等变正则化，在最终层保持原始不变性 SSL 目标不变。

方法详解¶

整体框架¶

SER 的 pipeline 如下：输入图像 → 数据增强 → ViT 编码器 → 中间层产出空间 token map（施加等变正则化）→ 后续层产出 [CLS] token（施加不变性 SSL 损失）→ 输出表征。

关键设计是将 ViT 编码器 \(f\) 分解为两部分：\(f = f^{(2)} \circ f^{(1)}\)，其中 \(f^{(1)}\) 输出保留空间结构的 token map（无 [CLS] token），\(f^{(2)}\) 在输入时才插入 [CLS] token 并产出最终嵌入。

关键设计¶

层解耦策略:
做什么：将不变性和等变性目标解耦到不同层
核心思路：中间层（如第 3 层）的空间 token map 保留 \(H_f \times W_f\) 的网格结构，可以直接用解析群操作 \(\rho_g\) 变换 token 排列；最终层的 [CLS] token 空间已坍缩，只施加不变性损失
设计动机：实验发现将等变正则化推向更深层时，等变性分数增加但分类精度下降（Table 4），存在最优中间位置（第 3 层为 sweet spot）
解析特征空间群操作 \(\rho_g\):
做什么：在特征空间直接定义几何变换的操作，无需学习额外的变换网络
核心思路：群 \(\mathcal{G}\) 由可逆几何变换组成（90° 旋转、水平翻转、各向异性缩放但不裁剪）。离散旋转和翻转对应 token 排列置换；缩放用确定性网格重采样实现，保持与输入空间相同的插值方式
设计动机：避免引入辅助变换/动作模块（如 EquiMod 的变换网络），也不需要学习或预测逐样本的变换编码/标签，仅增加 \(1.008\times\) 训练 FLOPs
批次分区与增强策略:
做什么：将 mini-batch 分为 \(b_1\)（使用标准增强）和 \(b_2\)（使用可逆增强）
核心思路：标准 SSL 的 RandomResizedCrop 包含裁剪操作，裁剪不可逆且不构成群，无法定义有效的相对变换 \(g = g_2 g_1^{-1}\)。因此 \(b_2\) 使用 \(\mathcal{T}_{eq} = \mathcal{T} \setminus \{\text{Random Crop}\} \cup \{\text{Rotation } 90°\}\)，保留光度增强但用可逆几何变换替代裁剪。两个子批次都参与不变性损失，只有 \(b_2\) 额外参与等变正则化
设计动机：确保等变性损失中的相对变换 \(g\) 是良定义的群元素
[CLS] token 延迟插入:
做什么：将 [CLS] token 的插入从输入层推迟到等变正则化层之后（即 \(f^{(2)}\) 的输入）
核心思路：如果 [CLS] token 从第一层就参与注意力，会破坏中间层 token map 的空间规则性
设计动机：保持 \(f^{(1)}\) 输出的纯空间 token map 结构，使群操作可以精确定义

损失函数 / 训练策略¶

等变正则化使用逐 patch 的 NT-Xent 对比损失：

\[\mathcal{L}_{\text{equiv}}^{i,j} = -\log \frac{\exp(s(z_{ij}, z'_{ij}))}{\exp(s(z_{ij}, z'_{ij})) + \sum_{m \neq i} \sum_n \exp(s(z_{ij}, z_{mn})) + \sum_{m \neq i} \sum_n \exp(s(z_{ij}, z'_{mn}))}\]

其中 \(s(x,y) = \frac{1}{\tau} \frac{x^\top y}{\|x\| \|y\|}\)，\(\tau\) 为温度系数（MoCo-v3/BT 用 0.3，DINO 用 0.5）。

总损失为：\(\mathcal{L} = \mathcal{L}_{\text{inv1}} + \mathcal{L}_{\text{inv2}} + \lambda \mathcal{L}_{\text{equiv}}\)

训练使用 AdamW，batch size 2048，100 epochs，10-epoch warmup + cosine decay。

实验关键数据¶

主实验¶

方法	Views	ImageNet Top-1	ImageNet-Sketch Top-1	ImageNet-V2 Top-1	ImageNet-R Top-1
MoCo-v3	2	68.44	17.65	56.54	18.59
+AugSelf	2	67.55	13.30	53.74	17.62
+STL	2	65.49	15.40	55.43	17.22
+SER	2	69.28	17.68	56.95	18.95
+EquiMod	3	68.95	14.81	56.31	16.54
+E-SSL	2+4	70.60	19.23	58.33	19.86
+SER	2+4	71.56	19.76	59.50	20.27

在严格匹配的 2-view 设置下，SER 是唯一提升 MoCo-v3 精度的等变 add-on（+0.84），其他方法反而降低精度。

消融实验¶

配置	Equiv Loss Layer	ImageNet Top-1	Rotation Equiv ↑
MoCo-v3 (baseline)	-	68.44	0.804
MoCo + SER	Layer 3	69.28	0.840
MoCo + SER	Layer 9	68.72	0.888
MoCo + SER	Layer 12	68.18	0.924
+SER, λ=0 (control)	Layer 3	68.82	-
+SER, λ>0 (full)	Layer 3	69.28	-

关键发现¶

层解耦是核心：等变正则化在第3层（共12层 ViT）效果最好，推向更深层会损害分类精度，即使等变性分数更高
层解耦是通用设计原则：将 EquiMod 的等变目标从 Layer 12 移到 Layer 3，Top-1 从 68.95→69.51；AugSelf 从 67.55→68.23
等变损失本身有效：控制实验 λ=0 时仅有 +0.38 提升（来自批次分区/增强变化），启用 ℒ_equiv 后额外提升至 +0.84
跨 SSL 方法一致有效：DINO +0.26, Barlow Twins +0.68
空间敏感任务提升更大：COCO 检测 +1.7 mAP，ImageNet-C/P +1.11/+1.22

亮点与洞察¶

层解耦设计原则：不变性和等变性不应在同一层施加。这个发现超越了 SER 本身——将其应用到 EquiMod、AugSelf 也能提升精度。这是一个可以广泛迁移到多目标正则化场景的设计思想。
解析群操作替代学习模块：利用 ViT patch grid 的规则结构，旋转/翻转直接作为 token 置换，避免引入任何额外参数——极简但有效。
批次分区处理不可逆增强：巧妙地将 batch 分为两部分，一部分遵循标准增强流程（含裁剪），一部分用可逆增强；两者都参与不变性损失，只有后者参与等变正则化。这解决了"裁剪不构成群"的根本问题。

局限性 / 可改进方向¶

仅在 ViT-S/16 上验证，未验证更大模型（ViT-B/L）和更长训练（300/800 epochs）
群 \(\mathcal{G}\) 仅包含离散变换（90° 旋转、翻转、缩放），未探索连续旋转等更丰富的变换群
批次分区策略中 \(b_2\) 不使用裁剪，可能影响多样性；理想方案是设计"可逆裁剪"
等变正则化的最优层位置（第 3 层）可能随模型规模变化，需要重新调参
增加的计算开销虽然极小（1.008×），但 patch-wise 对比损失的负样本数量随 batch size 和空间分辨率二次增长

评分¶

新颖性: ⭐⭐⭐⭐ 层解耦设计原则有洞察力，但核心组件（等变对比损失）并非全新
实验充分度: ⭐⭐⭐⭐⭐ 严格的匹配 view 对比、多 SSL 基线、多数据集、详尽消融
写作质量: ⭐⭐⭐⭐ 逻辑清晰，实验设计缜密，符号使用规范
价值: ⭐⭐⭐⭐ 层解耦作为通用设计原则有推广价值，但绝对提升幅度有限