跳转至

Depth-Bounds for Neural Networks via the Braid Arrangement

会议: NeurIPS 2025
arXiv: 2502.09324
代码: 无
领域: others (深度学习理论 / 表达力分析)
关键词: ReLU网络深度下界, 分段线性函数, braid排列, maxout网络, 组合证明

一句话总结

本文证明了在 \(\mathcal{B}_d^0\)-conforming 约束下,ReLU 网络精确表示 \(\max\{0, x_1, \ldots, x_d\}\) 需要 \(\Omega(\log \log d)\) 层——这是首个不限制权重的非常数深度下界;同时证明 rank-(3,2) maxout 网络可以计算 7 个数的最大值,说明标准上界不紧。

研究背景与动机

  1. 领域现状:ReLU 网络可以精确表示所有连续分段线性(CPWL)函数。Arora et al. (2018) 证明 \(\lceil \log_2(d+1) \rceil\) 层足够。Bakaev et al. (2025) 改进到 \(\lceil \log_3(d-1) \rceil + 1\) 层。但深度下界几乎空白。
  2. 核心开放问题:精确表示 \(\mathbb{R}^d\) 上所有 CPWL 函数最少需要多少层?目前最好的无条件下界仅为 2。
  3. 关键简化:由 Wang & Sun (2005) 知,任意 CPWL 函数可化为 \(\max\) 函数的表示——因此问题归结为:计算 \(d\) 个数的最大值需要多深的网络?
  4. 研究路线:限制 breakpoints(断点)位于 braid 排列上——即 \(\mathcal{B}_d^0\)-conforming。这一限制虽非完全一般,但提供了可分析的框架。

方法详解

核心概念

Braid 排列 \(\mathcal{B}_d\):由超平面 \(x_i = x_j\)\(1 \leq i < j \leq d\))构成的超平面配置。\(\mathcal{B}_d^0\) 额外包含 \(x_i = 0\)

\(\mathcal{B}_d^0\)-conforming 网络:所有神经元的断点均位于 braid 排列的超平面上。标准二叉树计算 max 的方式(逐层取两两最大值)就是 \(\mathcal{B}_d^0\)-conforming 的。

关键同构\(\mathcal{B}_d\)-compatible 的 CPWL 函数空间 \(\mathcal{V}_{\mathcal{B}_d}\) 与集函数空间 \(\mathcal{F}_d = \mathbb{R}^{2^{[d]}}\) 同构(维度为 \(2^d\)),映射 \(\Phi(f)(S) = f(\mathbb{1}_S)\)

子空间层级\(\mathcal{V}_{\mathcal{B}_d}(k) = \text{span}\{\sigma_M \mid M \subseteq [d], |M| \leq k\}\),其中 \(\sigma_M(x) = \max_{i \in M} x_i\)。有严格包含链:

\[\mathcal{V}_{\mathcal{B}_d}(0) \subsetneq \mathcal{V}_{\mathcal{B}_d}(1) \subsetneq \cdots \subsetneq \mathcal{V}_{\mathcal{B}_d}(d) = \mathcal{V}_{\mathcal{B}_d}\]

主定理:双对数下界

定理 4.8:对 \(\ell\) 层 rank-2 maxout 网络,\(\mathcal{M}_{\mathcal{B}_d}^2(\ell) \subseteq \mathcal{V}_{\mathcal{B}_d}(2^{2^\ell - 1})\)

推论 4.9\(\max\{0, x_1, \ldots, x_{2^{2^\ell-1}}\}\) 不能被 \(\ell\)\(\mathcal{B}_d^0\)-conforming ReLU 网络表示。

即深度下界为 \(\Omega(\log \log d)\)

证明核心思路

定义操作 \(\mathcal{A}(U)\):对子空间 \(U\) 中的函数施加一层 rank-2 maxout 后得到的新子空间。

关键递推(命题 4.7):\(\mathcal{A}(\mathcal{F}_{\mathcal{L}}(k)) \subseteq \mathcal{F}_{\mathcal{L}}(k^2 + k)\)

即一层 maxout 最多将子空间级别从 \(k\) 提升到 \(k^2 + k\)。迭代后: - 1 层:\(k=2\) - 2 层:\(k=6\) - 3 层:\(k=42\) - \(\ell\) 层:\(k = 2^{2^\ell - 1}\)(双指数增长)

因此表示 \(\sigma_{[d]}\)(即 \(d\) 个数的 max)需要 \(d \leq 2^{2^\ell - 1}\),即 \(\ell \geq \Omega(\log \log d)\)

证明技术要点: 1. 利用同构 \(\Phi\) 转化为集函数上的分析 2. Conforming 条件转化为:\(F \in \mathcal{C}_{\mathcal{L}}\)\(F(S)\)\(F(T)\)\(S \subseteq T\) 不能反号) 3. 引理 4.5:"推低支撑"——正负支撑可被推到低层级 4. 对布尔格的子格进行分解和归纳

\(d=4\) 的组合证明

定理 5.2\(\mathcal{M}_{\mathcal{B}_d}^2(2) = \mathcal{V}_{\mathcal{B}_d}(4)\)

即两层 \(\mathcal{B}_d^0\)-conforming ReLU 网络恰好能表示 \(\max\{0,x_1,\ldots,x_4\}\)。此前仅有基于 MIP 的计算验证——本文首次给出纯组合证明。

Maxout 的超预期能力

定理 6.2\(\max\{0, x_1, \ldots, x_6\}\) 可由 rank-(3,2) maxout 网络计算。

这说明标准上界 \(\prod r_i = 3 \times 2 = 6\) 不紧—— rank-(3,2) 能表示 7 个数的 max(多一个),打破了直觉。

构造方法:找到两个函数 \(f_1, f_2 \in \mathcal{V}_{\mathcal{B}_7}(3)\),使得 \(\max\{f_1, f_2\} \in \mathcal{V}_{\mathcal{B}_7}(7) \setminus \mathcal{V}_{\mathcal{B}_7}(6)\)

实验关键数据

本文是纯理论工作,无数值实验。核心结果总结:

结果 内容
深度下界 \(\Omega(\log \log d)\)\(\mathcal{B}_d^0\)-conforming)
此前最佳 常数 2
上界 \(\lceil \log_3(d-1) \rceil + 1\)(Bakaev et al.)
\(d=4\) 精确 2 层 \(\Leftrightarrow\) \(\mathcal{V}_{\mathcal{B}_d}(4)\)
Maxout 超预期 rank-(3,2) 可算 7 个数 max(标准上界仅 6)

与已有下界的对比

方法 限制条件 下界
Averkov et al. (2025) N-ary 分数权重 \(\Omega(\log d / \log \log N)\)
Haase et al. (2023) 整数权重 \(\lceil \log_2(d+1) \rceil\)
Bakaev et al. (2025a) 非负权重 专门下界
本文 断点在 braid 排列上 \(\Omega(\log \log d)\)

本文是唯一不限制权重的非常数下界。

亮点与洞察

  • 双对数下界虽然增长慢,但打破了常数下界的僵局——是该方向数年来首个实质进展
  • 证明方法优雅:将几何问题(多面体扇上的 CPWL 函数)完全转化为组合问题(布尔格上的集函数)
  • \(d=4\) 的组合证明替代了此前 Hertrich et al. (2023) 的 MIP 计算验证——提供了更深层的理解
  • Maxout 的超预期发现有独立意义:说明高阶激活函数的表达力用简单乘积公式无法刻画
  • 方法可潜在推广到其他扇结构,为理解一般网络深度下界提供工具

局限性 / 可改进方向

  • \(\mathcal{B}_d^0\)-conforming 是真正的限制:Bakaev et al. (2025b) 已证明一般(非 conforming)2 层网络可计算 5 个数 max
  • \(\log \log d\) 增长极慢(\(d=2^{2^{10}-1}\) 才需要 10 层),离期望的 \(\Theta(\log d)\) 上界差距大
  • 纯理论工作,对实际架构设计的启示有限
  • 证明技术深度依赖 braid 排列结构,推广到一般 breakpoint 配置不直接

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个无权重限制的非常数深度下界,学术意义重大
  • 实验充分度: ⭐⭐⭐ 纯理论工作,无数值实验(但有构造性证明替代)
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图示对理解布尔格分解很有帮助
  • 价值: ⭐⭐⭐⭐ 推进了深度学习理论中深度 vs 表达力的核心问题