Intrinsic Training Dynamics of Deep Neural Networks¶

会议: ICLR 2026
arXiv: 2508.07370
代码: 无
领域: 深度学习理论 / 优化动力学
关键词: intrinsic dynamics, gradient flow, conservation laws, implicit bias, Riemannian metric

一句话总结¶

本文研究深度神经网络梯度流训练中，参数空间的轨迹何时可以被"提升"到低维本征空间并表示为内禀的黎曼梯度流，提出了基于守恒律的内禀可恢复性（intrinsic recoverability）准则，并将结果推广到任意深度的 ReLU 网络和线性网络。

研究背景与动机¶

隐式偏置的核心问题：深度学习理论的核心挑战之一是理解梯度训练是否会促使参数趋向某些低维结构（稀疏、低秩等），即所谓的隐式偏置（implicit bias）问题。
提升变量框架：许多分析将参数 \(\theta\) 通过架构相关的映射 \(\phi\) "提升"为 \(z = \phi(\theta)\)，例如线性网络中 \(\phi(\theta) = U_L \cdots U_1\)，ReLU 网络中 \(\phi(\theta) = (u_j v_j^\top)_j\)。
内在动力学的重要性：若能证明 \(z(t)\) 遵循内在Riemannian梯度流，则可以利用凸优化理论工具（如mirror flow）来分析隐式正则化效应。
现有条件过强：Li et al. (2022) 的commuting条件在实际中很少满足；Marcotte et al. (2023) 的involutive条件仅适用于两层ReLU网络。
平衡初始化的限制：线性网络中，之前的内在动力学结果依赖于严格的balanced初始化条件 \(U_{i+1}^\top U_{i+1} = U_i U_i^\top\)。
缺乏统一理论：对于一般DAG架构的深层ReLU网络、非平衡初始化的线性网络以及无限深线性网络，缺乏统一的内在动力学分析框架。

方法详解¶

整体框架¶

论文建立了三层递进的内在性定义及其蕴含关系：

\[\text{Intrinsic Recoverability} \Rightarrow \text{Intrinsic Metric} \Rightarrow \text{Intrinsic Dynamic}\]

核心问题：对于梯度流 \(\dot{\theta}(t) = -\nabla \ell(\theta(t))\)，提升变量 \(z(t) = \phi(\theta(t))\) 的动力学为 \(\dot{z}(t) = -M(\theta(t)) \nabla f(z(t))\)，其中 \(M(\theta) = \partial\phi(\theta) \partial\phi(\theta)^\top\)。何时 \(M(\theta(t))\) 可以仅用 \(z(t)\) 和初始化 \(\theta_0\) 表达？

关键设计¶

内在动力学性质（Definition 2.6）
做什么：定义何时 \(\theta_0\) 相对于 \(\phi\) 具有内在动力学性质
核心思路：存在函数 \(K_{\theta_0}\) 使得 \(M(\theta(t)) = K_{\theta_0}(\phi(\theta(t)))\) 对所有 \(f\) 成立
设计动机：将度量矩阵与数据/任务解耦，\(K_{\theta_0}\) 仅依赖网络架构和初始化
内在度量性质（Definition 2.10）
做什么：在守恒律约束的流形 \(\mathcal{M}_{\theta_0}\) 上要求度量的内在性
核心思路：存在守恒律 \(\mathbf{h}\) 和函数 \(K_{\theta_0}\) 使得 \(M(\theta) = K_{\theta_0}(\phi(\theta))\) 对所有 \(\theta \in \mathcal{M}_{\theta_0}\) 成立
设计动机：利用守恒律将轨迹约束在低维流形上
内在可恢复性（Definition 2.15）与等价判据（Theorem 2.17）
做什么：要求参数 \(\theta\) 可从 \(\phi(\theta)\) 和 \(\mathbf{h}(\theta)\) 完全恢复
核心思路：等价于核交集条件 \(\ker\partial\phi(\theta) \cap \ker\partial\mathbf{h}(\theta) = \{0\}\)
设计动机：最强条件，等价于可验证的线性代数条件
ReLU 网络的 Frobenius 性质（Theorem 3.1 & Corollary 3.3）
做什么：证明任意 DAG 架构的 ReLU 网络的 path-lifting 满足 Frobenius 性质
核心思路：在非零参数（稠密集）上验证 Lie 括号封闭性
设计动机：对几乎所有初始化建立了最强的内在可恢复性
松弛平衡条件下的线性网络（Theorem 3.8 & 3.9）
做什么：将内在度量性质从 balanced (\(\lambda=0\)) 推广到 relaxed balanced (\(S = \lambda I\))
核心思路：推导闭式的内在动力学表达式，并证明松弛平衡是必要条件（\(r \leq \max(n,m)\) 时）
设计动机：在线性网络中建立了充要条件

损失函数 / 训练策略¶

本文为纯理论工作，分析连续时间梯度流。损失函数 \(\ell(\theta) = f(\phi(\theta))\) 中的 \(f\) 为任意可微函数，结果与具体损失函数和数据集无关。

实验关键数据¶

主实验¶

本文为纯理论贡献，核心结果以定理形式给出：

网络类型	映射 \(\phi\)	内在性质	条件
任意 DAG ReLU 网络	\(\phi_{\text{ReLU}}\) (path-lifting)	内在可恢复性 ✓	非零参数（稠密集）
两层线性网络	\(\phi_{\text{Lin}} = UV^\top\)	内在度量 ✓/✗	松弛平衡 ✓ / 非松弛 ✗
深层线性网络	\(\phi_{\text{Lin}} = U_L \cdots U_1\)	内在动力学 ✓	松弛平衡条件
线性神经ODE	无穷深极限	内在动力学 ✓	松弛平衡 + 闭式度量

消融实验¶

比较维度	之前结果	本文推广
ReLU 网络深度	两层	任意 DAG 架构
线性网络初始化	严格平衡 \(\lambda = 0\)	松弛平衡 \(S = \lambda I\)
线性网络层数	两层	任意深度 + 无限深
守恒律完备性	经验验证	理论证明（Corollary 3.4）

关键发现¶

ReLU 网络在稠密初始化集上满足最强的内在可恢复性质
已知守恒律（对角项差）对 ReLU 网络是完备的
线性网络的松弛平衡条件是内在度量性质的充要条件
三层 ReLU 网络首次给出了内在动力学的闭式表达式
线性神经 ODE 在松弛平衡初始化下也有闭式的内在度量

亮点与洞察¶

统一框架：三层递进定义清晰揭示不同内在性概念的强弱关系
ReLU 的良好性质：反直觉地，ReLU 的非线性分段结构使得对称群更小、守恒律更丰富，比线性网络更容易建立内在动力学
核包含准则的力量：Theorem 2.14 提供了简洁工具来证明"负面结果"
Lie 代数判据：基于 Frobenius 性质的实用代数检验方法，避免直接构造守恒律
跨架构适用：统一处理了 ReLU、线性、注意力层和无限深网络

局限性 / 可改进方向¶

仅分析连续梯度流，未覆盖离散优化算法（SGD、Adam）
仅建立了内在动力学（步骤i），未推进到 mirror flow（步骤ii）
线性网络在 \(r > \max(n, m)\) 时仍是 open problem
缺乏数值验证实验
Frobenius 性质在注意力层上不成立，需间接分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ 建立了完整的层级理论，ReLU 的普适结果是重要突破
实验充分度: ⭐⭐⭐ 纯理论工作，定理严谨但缺数值验证
写作质量: ⭐⭐⭐⭐⭐ 定义、定理层层递进，框架优雅清晰
价值: ⭐⭐⭐⭐ 为理解隐式偏置提供重要理论基石