Self-Supervised Learning from Structural Invariance¶

会议: ICLR 2026
arXiv: 2602.02381
代码: https://github.com/SkrighYZ/AdaSSL
领域: 自监督学习 / 因果表征学习
关键词: 自监督学习, 潜变量模型, 结构不变性, 异方差性, 因果表征

一句话总结¶

提出 AdaSSL，通过引入潜变量建模正样本对之间的条件不确定性，推导出互信息的变分下界，使 SSL 能够处理自然配对数据中的复杂（多模态、异方差）条件分布，在因果表征学习、细粒度图像理解和视频世界模型上均优于基线。

研究背景与动机¶

领域现状：Joint-embedding SSL（如 SimCLR、BYOL）通过鼓励正样本对表征相似来学习表征，通常依赖手工数据增强构造语义相关的正样本对。

现有痛点：手工增强（裁剪、色彩抖动）无法精确模拟真实世界的变化因素，可能丢弃细粒度信息、需要模态特定启发式、且不同于自然的分布偏移。使用自然配对数据（如相邻视频帧、图文对）可以更好地反映真实变化，但自然对引入了复杂的条件分布 \(p(\mathbf{z}^+|\mathbf{z})\)——异方差、多模态——现有 SSL 方法无法建模。

核心矛盾：InfoNCE 的点积相似度隐式假设 vMF 分布（等向噪声），AnInfoNCE 扩展到各向异性但仍是常数噪声。然而理论证明（Proposition 2.1），即使噪声在潜空间是等向的，映射到归一化嵌入空间后也必然产生异方差性——这是几何失配的必然结果。

本文目标：如何让 SSL 灵活建模任意复杂的条件分布 \(p(\mathbf{z}^+|\mathbf{z})\)，同时保持相似度函数简单？

切入角度：受 JEPA 启发，引入潜变量 \(\mathbf{r}\) 捕获预测不确定性，将复杂条件分布分解为两步：先采样 \(\mathbf{r}\)（如相机运动、动作），再用简单模型预测 \(\mathbf{z}^+\)。

核心 idea：通过互信息链式法则 \(I(f(\mathbf{x}); f(\mathbf{x}^+)) = I(f(\mathbf{x}), \mathbf{r}; f(\mathbf{x}^+)) - I(\mathbf{r}; f(\mathbf{x}^+)|f(\mathbf{x}))\)，第一项用扩展的 InfoNCE 优化（简单相似度+潜变量），第二项用 KL 正则化防止 \(\mathbf{r}\) 编码捷径。

方法详解¶

整体框架¶

编码器 \(f\) 提取嵌入，潜变量 \(\mathbf{r}\) 捕获正样本对间的不确定性。编辑函数 \(t(f(\mathbf{x}), \mathbf{r})\) 修改嵌入使其接近 \(f(\mathbf{x}^+)\)。目标函数：SSL 损失（InfoNCE 或 BYOL）+ 正则项限制 \(\mathbf{r}\) 的信息量。

关键设计¶

AdaSSL-V（变分版本）:
- 功能：用变分分布 \(q_\phi(\mathbf{r}|\mathbf{x}, \mathbf{x}^+)\) 建模潜变量
- 核心思路：\(\mathcal{L} = \mathcal{L}_{SSL}(\mathbb{E}_{q_\phi} \psi_1(\mathbf{x}, \mathbf{r}), \psi_2(\mathbf{x}^+)) + \beta D_{KL}(q_\phi(\mathbf{r}|\mathbf{x}, \mathbf{x}^+) \| p_\theta(\mathbf{r}|\mathbf{x}))\)，KL 正则防止 \(\mathbf{r}\) 直接编码 \(f(\mathbf{x}^+)\)
- 设计动机：推导出 \(I(f(\mathbf{x}); f(\mathbf{x}^+))\) 的可处理下界，理论上严格
AdaSSL-S（稀疏版本）:
- 功能：确定性预测 \(\mathbf{r}\)，正则化其稀疏性
- 核心思路：\(\mathbf{r} = m(f(\mathbf{x}), f(\mathbf{x}^+))\)，用 Gumbel-Sigmoid 实现可微 L0 惩罚。编辑函数采用模块化低秩设计 \(t(f(\mathbf{x}), \mathbf{r}) = f(\mathbf{x}) + \sum_i r_i (\mathbf{B}_i \mathbf{A}_i f(\mathbf{x}) + b_i)\)
- 设计动机：自然变化通常对应潜因子的稀疏改变，稀疏归纳偏置更符合因果表征学习
异方差性必然性定理（Proposition 2.1）:
- 功能：理论证明嵌入空间中配对的条件分布必然异方差
- 核心思路：当潜空间 \(\mathbb{R}^{d_z}\) 映射到弯曲流形（如单位球 \(\mathbb{S}^{d_f}\)）时，局部邻域的扭曲与位置相关，即使原始噪声等向也会产生位置依赖的方差
- 设计动机：从根本上证明了标准 SSL 相似度函数的不足

损失函数 / 训练策略¶

AdaSSL-V: InfoNCE + KL 正则（\(\beta\) 控制强度）
AdaSSL-S: InfoNCE + L0 稀疏正则（Gumbel-Sigmoid）
也兼容 BYOL 等非对比方法

实验关键数据¶

主实验¶

任务/数据集	指标	AdaSSL	InfoNCE	AnInfoNCE	H-InfoNCE
数值异方差 (OOD)	R²	0.92+	<0.27	<0.40	0.76
3DIdent (CRL)	DCI	0.85+	0.72	0.74	0.78
CelebA 细粒度	40-attr Acc	最佳	较低	较低	中等
Moving-MNIST 加速度	R²	0.55 (BYOL基线0.15)	-	-	-

消融实验¶

配置	数值 OOD R²	说明
AdaSSL-V	0.92+	完整变分版本
AdaSSL-S	0.90+	稀疏版本，略低但更稀疏
H-InfoNCE	0.76	异方差但无潜变量
InfoNCE	<0.27	基线完全失败
AnInfoNCE	<0.40	各向异性不够

关键发现¶

在复杂条件分布（多模态+异方差）下，InfoNCE 和 AnInfoNCE 完全失败（OOD R² < 0.4），AdaSSL 保持 0.9+
自然配对数据（vs 标准增强）在有正确建模时显著提升下游性能
AdaSSL-S 学到的稀疏 \(\mathbf{r}\) 与真实变化因子对齐
视频世界模型中，AdaSSL 能捕获随机加速度（BYOL 丢弃此信息）

亮点与洞察¶

异方差性定理揭示了标准 SSL 的根本局限——不是经验观察而是数学必然
潜变量建模的通用性：同一个框架兼容对比和蒸馏 SSL，适用于数值/图像/视频
稀疏模块化编辑的设计（\(\mathbf{r}\) 控制低秩编辑模块）与 LoRA 风格思想异曲同工

局限与展望¶

AdaSSL-S 在蒸馏方法（BYOL）上需要额外处理
潜变量维度 \(d_r\) 需要预设，自动确定更好
大规模验证不足（没有 ImageNet 级别实验）
多模态条件分布的模式数量未知时，变分先验的选择有待优化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 异方差性定理 + MI 下界 + 双变体设计，理论和方法都有深度
实验充分度: ⭐⭐⭐⭐ 多任务验证（数值/CRL/图像/视频），但缺乏大规模对比
写作质量: ⭐⭐⭐⭐⭐ 理论动机清晰，从理论到方法到实验逻辑流畅
价值: ⭐⭐⭐⭐ 解决了 SSL 的根本理论问题，方法通用性强