LayerLock: Non-collapsing Representation Learning with Progressive Freezing¶

论文信息¶

会议: ICCV 2025
arXiv: 2509.10156
作者: Goker Erdogan, Nikhil Parthasarathy, Catalin Ionescu, Drew A. Hudson, Alexander Lerchner, Andrew Zisserman, Mehdi S. M. Sajjadi, João Carreira
机构: Google DeepMind, University of Oxford
领域: 3D视觉 / 自监督表征学习
关键词: 自监督学习, 视频表征, 渐进冻结, 潜变量预测, Masked Auto-Encoding, V-JEPA

一句话总结¶

提出 LayerLock，一种通过渐进式冻结网络层并动态切换预测目标（从像素到越来越深的中间层特征）的自监督视频表征学习方法，兼具像素预测的稳定性和潜变量预测的高效语义捕获能力，用于训练高达 4B 参数的视频模型。

研究背景与动机¶

问题定义¶

自监督视觉表征学习的两大范式各有利弊： - 像素预测（如 VideoMAE）：学习信号稳定、不会崩溃（collapse），但需要大量训练数据，且学到的特征偏向低级视觉信息，与下游任务不完全匹配 - 潜变量预测（如 V-JEPA）：数据效率高，能学到更高级的语义特征，但需要各种训练技巧（非对称架构、EMA 教师网络、stop-gradient）来避免表征崩溃

关键观察¶

在 Video MAE 训练过程中，ViT 的层按深度顺序收敛：浅层先收敛，深层后收敛。作者通过冻结实验验证了这一现象——在某步冻结前 \(L\) 层后继续训练，若最终 loss 接近基线 \(L_{base}\)，则认为这些层已"收敛"。

核心创新思路¶

利用这一层级收敛规律，提出渐进冻结 + 动态目标切换：训练初期预测像素（稳定），随着浅层收敛，逐步冻结这些层并切换到预测更深层的中间激活值。这样既保留了像素预测的稳定性，又逐步引入潜变量预测的语义学习优势，同时避免表征崩溃。

方法详解¶

整体框架¶

LayerLock 基于标准 MAE 架构，核心改动在于训练过程中的预测目标管理： 1. 初始阶段预测像素（标准 MAE），持续 \(N_{\text{pixel}}\) 步 2. 此后每隔 \(N\) 步冻结下 \(k\) 层，预测目标切换到新冻结层的输出 \(h_k\) 3. 持续渐进直到冻结 3/4 的网络层

模型架构¶

编码器：标准 ViT backbone，输入视频 \(x \in \mathbb{R}^{T \times H \times W \times 3}\)，分割为 \(2 \times 16 \times 16\) 的 patch，随机 mask 95%，线性投影到 \(D\) 维。

解码器：复用 backbone 最后 4 层作为解码器。在 backbone 某层前拼接解码 latent tokens \(z \in \mathbb{R}^{N \times D}\)，通过剩余 Transformer 块处理后，用逐 patch 线性层投影到目标空间。

3D 旋转位置编码（3D RoPE）：将特征维度分为 4 部分，分别对时间、高度、宽度三个轴施加 1D RoPE（10%、25%、25% 比例），第四部分不加位置信息。关键发现：RoPE 作用在第一个归一化层之后比作用在 attention 中更有效。

渐进冻结与潜变量预测¶

冻结调度（以 ViT-G 为例）： - 前 160K 步：预测像素（标准 MAE loss） - 每 10K 步冻结 1 层，预测目标切换到新冻结层的输出 - 直到冻结 32 层（总 48 层的 2/3） - 使用 L2 loss：\(\text{loss} = \|h_k - \hat{h}_k\|^2\)

调度确定启发式：当前几层的参数范数开始趋于平稳（或使用 weight decay 时开始变小），即开始冻结。

每次目标切换时的 mini-warmup：逐步增加学习率，避免突然切换目标导致训练不稳定（带来约 1% 的 SSv2 提升）。

扩展到 V-JEPA¶

LayerLock 也可应用于已使用潜变量预测的方法： - 训练初期预测 EMA 教师网络的第一层激活 - 渐进冻结并切换到预测更深层激活 - 使用 ViT-L backbone + 12 层 Transformer 解码器 - 仍保留 EMA 教师网络（虽然渐进冻结本身可避免崩溃，但 EMA 在下游性能更好）

实验关键数据¶

主实验：LayerLock vs 基线¶

模型	LayerLock	参数量(M)	SSv2↑	K700↑	ScanNet↓
4DS-G (MAE)	✗	1,848	63.1	52.1	1.02
4DS-G (MAE)	✓	1,868	66.1	56.3	1.00
4DS-e (MAE)	✗	3,811	64.6	54.4	0.94
4DS-e (MAE)	✓	3,818	67.1	57.9	0.98
V-JEPA-L	✗	235	52.1	42.5	1.57
V-JEPA-L	✓	303	57.0	43.5	1.51

SSv2 动作分类提升约 3%（MAE）和 5%（V-JEPA），非常显著
K700 动作分类也有明显提升
深度估计（ScanNet）性能保持或略有提升

消融实验¶

效率消融：渐进冻结节省 9% 总 FLOPs + 16% 峰值内存，性能几乎无损

配置	SSv2↑	ScanNet↓
基线 MAE（无冻结）	56.1	0.15
渐进冻结 MAE	56.0	0.16

MAE + latent loss 会崩溃：

模型	SSv2↑	ScanNet↓
4DS-H	50.1	0.19
+ latent (const weight)	3.7	0.38
+ latent (cosine schedule)	5.6	0.37

直接在 MAE 上添加 latent loss 而不冻结 → 严重表征崩溃！这证实了渐进冻结对避免崩溃至关重要。

3D RoPE 消融：

配置	SSv2↑	ScanNet↓
无 RoPE	56.1	0.15
+ 3D RoPE	58.9	0.13
+ 3D RoPE + LayerLock	60.1	0.13

RoPE 独立贡献约 2.8% SSv2 提升，与 LayerLock 互补叠加。

Patch 子采样效率消融：

配置	SSv2↑	ScanNet↓
基线 MAE	63.1	1.02
LayerLock 5% patches	64.9	1.12
LayerLock 100% patches	66.1	1.00

仅用 5% 的 patches 计算 latent loss 也能显著超过基线，但深度估计稍有下降。

关键发现¶

层级收敛顺序：浅层先收敛、深层后收敛，这一观察对设计训练策略有重要指导意义
单目标 vs 多目标：每次只预测最新冻结层的输出（单目标）与同时预测所有已冻结层（多目标）性能相当，简单方案即可
冻结调度：逐层冻结（interval=2K, jump=1）效果最好，一次冻结过多层会显著降低性能
更长训练受益更大：1B 训练样本时 FLOP 效率提升可达 19%

亮点与洞察¶

观察驱动的方法设计：从"层级按深度顺序收敛"这一实证观察出发，自然推导出渐进冻结策略
避免崩溃的优雅方案：无需 asymmetric architecture、contrastive loss 等复杂技巧，仅靠渐进冻结 + 动态目标即可实现稳定的 latent 预测
通用性强：在像素预测（4DS MAE）和潜变量预测（V-JEPA）两种范式上均有效，且可扩展到 4B 参数模型
计算效率：渐进冻结不仅提升表征质量，还节省训练 FLOPs 和峰值内存
类似生物视觉发育的关键期：浅层先收敛固定的模式与神经科学中的"关键期可塑性"相呼应

局限性¶

冻结调度目前依赖手动启发式（观察参数范数变化），缺乏自适应机制
在深度估计等低级任务上的提升不如高级语义任务显著
仅在视频任务上验证，尚未扩展到图像自监督学习
训练规模极大（1B 视频 clip，256 TPU-v6），实验复现困难

评分 ⭐⭐⭐⭐⭐¶

观察深刻，方法简洁优雅，理论动机清晰。在像素预测和潜变量预测两种主流范式上都有一致改进，且兼顾计算效率。消融实验极其全面（冻结调度、patch子采样、崩溃验证、RoPE等），为大规模视频自监督学习提供了新的训练范式。