Generalization Below the Edge of Stability: The Role of Data Geometry¶

会议: ICLR 2026
arXiv: 2510.18120
代码: 无
领域: 学习理论 / 优化
关键词: 泛化理论, 稳定性边缘, 数据几何, ReLU 网络, 隐式正则化

一句话总结¶

提出"数据可碎性"（data shatterability）原理统一解释数据几何如何控制梯度下降在稳定性边缘（EoS）附近的隐式正则化强度：对 Beta(α) 径向分布族推导出依赖 α 的泛化上下界谱，对低维子空间混合分布证明泛化率适应内在维度 \(m\) 而非环境维度 \(d\)。

研究背景与动机¶

领域现状：过参数化神经网络即使不加显式正则化（如权重衰减）也能泛化良好，这一现象无法被经典统计学习理论解释。近年来，Edge of Stability（EoS）现象的发现——GD 大步长训练时 Hessian 最大特征值 \(\lambda_{\max}(\nabla^2\mathcal{L}) \approx 2/\eta\) ——为理解隐式正则化提供了新视角。

现有痛点：

已有工作证明 EoS 条件等价于数据依赖的加权 path norm 约束，但对均匀球分布推导出的泛化界存在维度诅咒 → 与深度学习实际成功相矛盾
哪些数据几何会导致泛化、哪些会导致记忆，尚无统一理论框架
现有泛化界是分布无关的，无法区分不同数据几何的影响

核心矛盾：EoS 诱导的数据依赖正则化在不同数据分布上强度截然不同——球面上的数据网络可以无代价记忆，而球内的数据被强正则化约束。需要一个统一原理解释这一差异。

本文方案：引入"数据可碎性"概念——ReLU 半空间对数据分布的碎片化难度——作为控制泛化行为的核心几何量。

方法详解¶

整体框架¶

本文的理论分析建立在两层 ReLU 网络的 BEoS（Below Edge of Stability）条件之上：

\[f_{\boldsymbol{\theta}}(\boldsymbol{x}) = \sum_{k=1}^K v_k \phi(\boldsymbol{w}_k^\top \boldsymbol{x} - b_k) + \beta, \quad \phi(z) = \max\{z, 0\}\]

BEoS 条件 \(\lambda_{\max}(\nabla^2_{\boldsymbol{\theta}}\mathcal{L}) \leq 2/\eta\) 等价于数据依赖加权 path norm 的上界约束。核心技术路线为：

半空间深度分层 → 好区域/坏区域分解 → 泛化上界 → 数据几何实例化

关键设计一：半空间深度量化分割¶

引入 Tukey 半空间深度（half-space depth）对输入空间进行分层：

\[\text{depth}(\boldsymbol{x}, \mathcal{P}_X) = \inf_{\boldsymbol{u} \in \mathbb{S}^{d-1}} \mathbb{P}(\boldsymbol{u}^\top(\boldsymbol{X} - \boldsymbol{x}) \geq 0)\]

对 \(T\)-深区域 \(\Omega_T\)，任何穿过该区域的 ReLU 激活边界必须在两侧各保有至少 \(T\) 比例的数据 → 权重函数 \(g(\boldsymbol{u}, t)\) 有正下界 → 这些神经元的（无权）path norm 受到 \(O(1/g_{\min}(T))\) 的有效控制。

这带来了关键的泛化分解：

\[\sup_{\boldsymbol{\theta} \in \Theta_{\text{BEoS}}} \text{Gap}(f_{\boldsymbol{\theta}}, \mathcal{D}) \leq \underbrace{\tilde{O}(\mathbb{P}(\boldsymbol{X} \notin \Omega_T))}_{\text{浅层区域}} + \underbrace{\tilde{O}(g_{\min}(T)^{-d/(2d+3)} n^{-(d+3)/(4d+6)})}_{\text{T-深区域}}\]

关键设计二：各向同性 Beta(α) 径向分布族的泛化谱¶

定义 \(\boldsymbol{X} = h(R)\boldsymbol{U}\)，其中 \(h(r) = 1 - (1-r)^{1/\alpha}\)，\(R \sim \text{Uniform}[0,1]\)，\(\boldsymbol{U} \sim \text{Uniform}(\mathbb{S}^{d-1})\)。

\(\alpha\) 大 → 质量集中在球心 → 浅层区域概率小 → 泛化好
\(\alpha\) 小 → 质量集中在球面附近 → 可 packing 大量不相交 spherical cap → 容易记忆
\(\alpha \to 0\)（球面极限）→ 存在宽度 \(\leq n\) 的网络在 BEoS 条件下完美插值，\(\lambda_{\max} \leq 1 + (D^2+2)/n\)

上界（Theorem 3.4）和下界（Theorem 3.5）均依赖 \(\alpha\)，率分别为 \(n^{-\alpha(d+3)/(2(d^2+4\alpha d+3\alpha))}\) 和 \(n^{-2\alpha/(d-1+2\alpha)}\)。

关键设计三：对低维结构的自适应¶

对混合分布 \(\mathcal{P}_X = \sum_{j=1}^J \pi_j \mathcal{P}_{X,j}\)，每个分量是 \(m\) 维仿射子空间上的均匀球分布（\(m < d\)），证明泛化率：

\[\text{Gap} \lessapprox_d \left(\frac{1}{\eta} - \frac{1}{2} + 4M\right)^{\frac{m}{m^2+4m+3}} M^2 J^{4/m} n^{-1/(2m+4)}\]

核心机制：网络限制在子空间 \(V_j\) 上时，神经元的激活仅由 \(\text{proj}_{V_j} \boldsymbol{w}_k\) 决定 → 高维超平面退化为低维"knot" → 可碎性急剧降低。

实验与结果¶

主实验：各向同性分布上的泛化速率验证¶

在 \(d=5\) 维空间中，对 \(\alpha \in \{0.1, 0.3, 1.5, 5.0\}\) 的 Beta(α) 径向分布，训练宽度 1000 的两层 ReLU 网络，学习率 0.4，20000 epochs。

分布参数 \(\alpha\)	log-log 斜率（实测）	理论预测趋势
0.1	≈ -0.05（几乎不泛化）	质量集中球面 → 记忆
0.3	≈ -0.12	弱泛化
1.5	≈ -0.25	中等泛化
5.0	≈ -0.38（最陡）	质量集中球心 → 强泛化

\(\alpha\) 越大 → log-log 曲线斜率越陡 → 泛化越快，与理论一致。

消融实验：内在维度适应性验证¶

20 条 1 维线嵌入 \(\mathbb{R}^d\)（\(d \in \{10, 50, 100, 500\}\)）：

环境维度 \(d\)	log-log 斜率	变化幅度
10	≈ -0.22	基准
50	≈ -0.21	+0.01
100	≈ -0.21	+0.01
500	≈ -0.20	+0.02

斜率几乎恒定 → 泛化适应内在维度（\(m=1\)），不受环境维度影响。作为对照，均匀球分布（\(\alpha=1\)）的泛化则随 \(d\) 增大显著恶化。

MNIST 上的验证¶

数据类型	20000步后 clean MSE	行为
\(\mathcal{N}(0, I_{784})\)	≈ 1.0（噪声水平）	快速记忆
MNIST 图像	≈ 0.2	抵抗过拟合万步

Gaussian 分布集中在薄球壳上（高可碎性）→ 快速记忆；MNIST 近似低维结构 → 抵抗过拟合。深度越浅的 MNIST 点预测误差越大，与理论预测一致。

论文评价¶

优点¶

理论深度出色：将 EoS 隐式正则化、数据几何、泛化三者统一到"可碎性"框架下，既有上界也有匹配下界
突破性洞察：解释了为什么真实数据（低维流形）比随机高斯数据更难过拟合——这是 Zhang et al. (2017) "Rethinking Generalization" 的理论回应
技术创新强：半空间深度分层避免了全局 metric entropy 爆炸 → 突破了分布无关界的瓶颈
实际启示丰富：为 Mixup 数据增强和激活频率剪枝提供了理论解释

不足¶

分析限于两层 ReLU 网络 → 推广到深层网络面临 EoS 正则化传播的理论挑战
半空间深度集中指数 \(\mathsf{S}_{\text{DQ}}\) 仅在各向同性分布上有精确刻画 → 非各向同性数据的可碎性量化仍然是启发式的
实验规模限于简单合成数据和 MNIST → 对 CIFAR/ImageNet 等更复杂数据的预测能力未验证

评分¶

⭐⭐⭐⭐⭐

这是一篇有深度和广度的理论工作，首次将 EoS 隐式正则化与数据几何建立了定量联系。"数据可碎性"概念优雅地统一了之前零散的经验观察（真实数据比随机数据更难过拟合、低维数据泛化更好、球面上数据容易记忆等），并为理解为什么深度学习在实践中能突破维度诅咒提供了坚实的理论基础。