Cross-regularization: Adaptive Model Complexity through Validation Gradients¶

会议: ICML2025
arXiv: 2506.19755
代码: 待确认
领域: 正则化
关键词: 正则化, 验证梯度, 超参数优化, 噪声注入, 不确定性校准, 数据增强

一句话总结¶

提出 Cross-regularization（交叉正则化），通过验证集梯度直接优化正则化参数（权重范数、噪声尺度、增强强度），在单次训练中收敛到交叉验证最优解，消除手动调参需求。

研究背景与动机¶

核心痛点：传统正则化（weight decay、dropout 等）需要手动调超参 \(\lambda\)，通过交叉验证多次训练才能找到最优值，计算开销大且不灵活
已有方法的局限：
- 变分 dropout 等方法在训练数据上优化代理目标，而非直接面向泛化性能
- 基于验证梯度的方法（Maclaurin et al. 2015）需要计算逆 Hessian 或维护完整参数历史，难以扩展到大网络
- Luketina et al. (2016) 虽然只用最近一步参数更新计算验证梯度，但在两个数据分区上都训练正则化参数，无法保证收敛
- Population Based Training (PBT) 需要并行训练多个模型，计算成本高
关键洞察：与其通过间接超参 \(\lambda\) 控制模型复杂度，不如直接优化正则化参数 \(\rho\)（如权重范数、噪声尺度），用验证集梯度提供连续的泛化反馈

方法详解¶

核心框架：参数与数据的双重分离¶

将模型参数分为两组，在不同数据集上优化：

特征学习参数 \(\theta\)：在训练集上通过梯度下降优化
正则化参数 \(\rho\)：在验证集（称为"正则化集"）上通过梯度下降优化

交替更新规则：

\[\theta_{t+1} = \theta_t - \eta_\theta \nabla_\theta \mathcal{L}_{\text{train}}(\theta_t, \rho_t)\]

\[\rho_{t+1} = \rho_t - \eta_\rho \nabla_\rho \mathcal{L}_{\text{val}}(\theta_{t+1}, \rho_t)\]

L2 正则化实例化¶

将权重重参数化为幅度和方向：\(\rho = \|w\|_2\)，\(\theta = w / \|w\|_2\)。这样训练集优化方向 \(\theta\)，验证集优化幅度 \(\rho\)，等价于寻找最优 ridge 回归解。

定理 3.1（L2 交叉验证等价性）：在平滑和强凸条件下，交叉正则化收敛到与最优 ridge 回归相同的解 \(\rho^* \theta^* = w_{\text{val}}(\lambda^*)\)。

梯度分解扩展到任意正则化器¶

对于 L1 等不可微正则化器，通过将梯度投影到正则化方向和正交方向实现分解：

\[g = g_\rho + g_\perp, \quad g_\rho = \text{Proj}_{\nabla R}(g)\]

训练更新沿 \(g_\perp\) 方向（保持当前复杂度）
验证更新沿 \(g_\rho\) 方向（调节正则化强度）

随机正则化（噪声注入）¶

在神经网络的每层注入可学习尺度的噪声：

\[h_l = g(\hat{u}_l + \sigma_l \epsilon), \quad \epsilon \sim \mathcal{N}(0, I)\]

关键设计：训练时用单次噪声采样，验证时用 Monte Carlo 平均（K 次采样）：

\[f_{\text{val}}(x) = \frac{1}{K} \sum_{k=1}^K f(x, \epsilon_k)\]

验证用平均预测而非确定性预测（\(\epsilon=0\)），否则验证损失与噪声尺度 \(\sigma\) 无关，无法优化。

实验关键数据¶

经典正则化验证¶

方法	任务	结果
Cross-reg L2	合成数据 ridge	收敛到最优 ridge 回归解
Cross-reg L1	糖尿病预测	自动发现与 LASSO 最优交叉验证匹配的稀疏度
Cross-reg 样条	函数拟合	自动学到合适的平滑度

神经网络噪声正则化 (CIFAR-10)¶

方法	准确率	说明
Baseline（无正则化）	76.0%	—
Fixed noise (\(\sigma=1\), 后5层)	—	初期阻碍学习，后期仍过拟合
PBT（多模型进化搜索）	83.7%	需并行训练多个模型
Cross-reg	83.7%	单次训练即达到 PBT 水平

不确定性校准 (ECE)¶

方法	ECE ↓	准确率
未校准模型	0.163	67.4%
Temperature Scaling	0.057	69.6%
Fixed Reg	0.175	74.7%
Deep Ensemble (5模型)	0.030	81.3%
Cross-reg	0.038	79.5%

数据增强 (SVHN)¶

测试准确率从 82.8% 提升到 86.3%
泛化差距从 16.2% 降至 7.3%
自动学到：平移 1-2 像素、旋转 3°、剪切约 0

亮点与洞察¶

惊人的高噪声容忍度：VGG-16 在某些层学到 \(\sigma \approx 13\) 的噪声尺度（等价于 dropout rate 99.87%），远超传统认知，但模型仍能正常工作。这与 Lottery Ticket Hypothesis 的发现吻合——VGG 在 CIFAR-10 上可被剪枝到 98%+ 稀疏度
架构感知的正则化模式：ResNet 的噪声集中在无法被 skip connection 绕过的早期层和最终层（\(\sigma_2 = 10.4\)），揭示了残差网络的信息流结构
统一框架：同一个方法可处理 L2/L1 范数正则化、噪声注入、数据增强、不确定性校准，仅需改变 \(\rho\) 的定义
计算高效：相比 PBT 的 \(O(PT)\) 前向传播，仅需 \(O(T(1+K/r))\)，约 10% 额外开销；验证集可小至训练集的 1%
理论保证：证明了线性收敛（定理 4.1）、与交叉验证等价（定理 4.5）、统计误差仅依赖正则化参数维度 \(k\)（定理 4.4）

局限与展望¶

实验规模有限：主要在 CIFAR-10/SVHN + VGG/WideResNet 上验证，缺少 ImageNet 等大规模实验和 Transformer 架构实验
验证集依赖：需要额外划分验证集用于正则化优化，在小数据场景下可能影响训练数据量（虽然论文说 1% 即可）
理论收敛条件较强：定理 4.3 假设验证损失对 \(\rho\) 强凸，且梯度 Lipschitz 连续，这在深度网络中可能不严格成立
噪声类型受限：不支持标准 Dropout（不可微），仅支持高斯噪声等连续可微的随机正则化
与现代训练技巧的交互：未充分探讨与 AdamW、cosine schedule、混合精度等现代训练配置的兼容性
单一作者/实验室：来自 NightCity Labs，可能缺少大规模算力支持的充分验证

评分¶

新颖性: ⭐⭐⭐⭐ （将验证梯度直接作用于正则化参数的框架设计简洁优雅）
实验充分度: ⭐⭐⭐ （覆盖了多种正则化类型，但数据集和架构规模偏小）
写作质量: ⭐⭐⭐⭐ （理论与实验的衔接清晰，噪声动态分析有深度）
价值: ⭐⭐⭐⭐ （统一框架解决正则化调参痛点，实用性强）