ResNets Are Deeper Than You Think¶

会议: NeurIPS 2025
arXiv: 2506.14386
代码: 暂无
领域: 深度学习理论 / 网络架构
关键词: 残差网络, 函数空间, 归纳偏好, 可训练性, 变深度网络

一句话总结¶

证明残差网络与前馈网络居于不同的函数空间（非简单重参数化），并通过后训练部分线性化实验表明变深度架构（类ResNet）即使在排除可训练性差异后仍优于固定深度架构，暗示残差连接提供了超越优化的归纳偏好。

研究背景与动机¶

残差连接自He et al. (2016)提出以来，至今仍是几乎所有现代深度架构（Transformer、大语言模型等）的标配。通常认为残差连接的成功归因于显著改善了可训练性：残差网络训练更快、更稳定、精度更高。但这引出一个根本性问题——残差网络是否仅仅是前馈网络的重参数化（即覆盖相同的函数空间），还是它们实质上居于不同的假设空间？

大量研究尝试弥合前馈网络和残差网络之间的性能差距：精心设计的初始化方案、动态等距（Dynamic Isometry/DKS）、归一化层等。但至今无人成功完全消除这个差距。即便解决了数值稳定性问题（前向传播稳定、梯度不爆炸/不粉碎、不丢秩），残差网络仍然优于同等条件下的前馈网络。

这引发了核心假说：残差网络的优势不仅来自优化层面，还来自其函数空间的归纳偏好——变深度网络（包含长短混合路径）可能比固定深度网络更好地匹配自然数据分布。但直接训练比较面临困难：前馈网络的数值问题使得任何性能差距都可能被归结为"训练不充分"。因此需要设计巧妙的实验来剥离可训练性的影响。

方法详解¶

整体框架¶

本文采用双管齐下的策略：（1）解析论证证明残差网络和前馈网络的函数空间确实不同；（2）设计后训练部分线性化实验，在排除可训练性差异后比较变深度和固定深度架构的泛化性能。

关键设计¶

函数空间不等价的解析证明: 给出精确定义——重参数化要求存在权重映射 \(h(\theta)\) 使得 \(g(x, h(\theta)) = f(x, \theta)\)，等价重参数化还要求相同的宽度和深度。对于使用非注入非线性和方阵的一般情况，无法将ResNet等价重参数化为前馈网络。命题1展示了一种可行但受限的构造：残差块 \(R(x) = \phi(\bar{W}x + \bar{b}) + x\) 可以重参数化为前馈层，但需要双倍宽度和额外深度，且在 \(\epsilon \to 0\) 极限下才精确。设计动机：严格建立"ResNet ≠ 前馈网络的重参数化"，为归纳偏好假说提供理论基础。
后训练部分线性化实验设计: 这是本文最精巧的实验设计。起点是一个已训练好的前馈网络（RepVGG-A2），然后在后训练阶段用正则化手段将部分ReLU单元线性化：
- 将ReLU替换为PReLU（参数化ReLU），斜率 \(\alpha_i\) 可学习
- 添加正则项 \(L_{0.5} = \sum |\mathcal{1} - \alpha_i|^{0.5}\)，激励 \(\alpha_i \to 1\)（即线性化）
- 通道级（channel-wise）线性化：每个通道一个 \(\alpha_i\)，可产生变深度网络（部分通道保持非线性→类ResNet）
- 层级（layer-wise）线性化：每层一个 \(\alpha_i\)，只能产生固定深度网络（更浅的前馈网络）

设计动机：从同一已训练网络出发（排除训练差异），两种线性化方式产生不同"形状"的网络，公平比较其泛化性能。

标准化平均路径长度（NAPL）作为深度度量: 定义NAPL为从输入到输出路径上遇到的非线性单元的平均数量。对层级线性化，NAPL就是剩余的深度减一。对通道级线性化，NAPL可以是非整数。在相同NAPL下比较两种方法的性能差距。设计动机：提供一个公平的深度度量，使得变深度和固定深度网络的比较有意义。

损失函数 / 训练策略¶

训练分为两阶段：（1）标准训练阶段直到收敛（使用原始交叉熵损失）；（2）后训练阶段在交叉熵基础上加正则项 \(\omega \cdot L_{0.5}\)，调节 \(\omega\) 控制线性化程度。当 \(|\alpha_i - 1| < 0.01\) 时将其冻结为1。ImageNet后训练10epoch，CIFAR-100后训练60epoch（更长以排除收敛问题）。

实验关键数据¶

主实验¶

数据集	NAPL范围	通道级（变深度）	层级（固定深度）	性能差距
ImageNet	12以下	更高accuray	较低	差距随NAPL减小而增大
ImageNet	12以上	相当	相当	差距不明显
CIFAR-100	3-5	更高	较低	显著差距，误差线不重叠
CIFAR-10	更低阈值	更高	较低	差距在更低NAPL处出现

消融实验¶

配置	关键指标	说明
起点为ResNet56（有残差）	通道级 vs 层级	差距大幅缩小（NAPL>4时几乎消失），确认差距来自路径结构
起点为RepVGG（无残差）	通道级 vs 层级	差距显著，固定深度明显更差
参数量对比	参数差异 ~0.03%	排除参数量差异作为性能差距的原因
路径长度直方图	通道级提取 vs 标准ResNet	提取的网络呈现长短路径混合分布，与ResNet类似

关键发现¶

从前馈网络出发的通道级线性化自发涌现了类ResNet的变深度结构（长短路径混合），这是优化的结果而非预设
在NAPL较低时，变深度架构一致优于固定深度，且差距在更难的数据集（ImageNet > CIFAR-100 > CIFAR-10）上更显著
当从ResNet出发做线性化时，通道级和层级差距大幅缩小，确认了性能差距来自"只有长路径"的约束
CIFAR-100在NAPL~3处出现性能轻微上升，因为线性化也平滑了损失面
路径长度分布近似二项分布，与Veit et al. (2016)的理论预测一致

亮点与洞察¶

反转问题的思路极其巧妙：不是试图"修好前馈网络使其匹配ResNet"（这条路走了近十年仍未成功），而是从同一训练好的网络出发"雕刻"出两种不同形状的子网络来比较，从根本上排除了可训练性的干扰
涌现结构的发现：通道级线性化从固定深度模型中自发产生变深度结构，暗示变深度可能是自然数据的一种内在偏好
对ResNet理解的深化：从"ResNet更好训练"推进到"ResNet的函数空间更匹配自然数据"——这是对该领域近十年讨论的重要推进

局限与展望¶

后训练线性化的网络不保证是全局最优的子网络——非凸优化可能导致两种方法落入不同局部最优解
仅在视觉任务（ImageNet、CIFAR）上验证，缺少其他模态（NLP、语音）的证据
通道级方法比层级方法多约0.03%的参数——虽然做了额外实验排除，但不是完全等参数的比较
重参数化不可行的证明需要双倍宽度——实际中ResNet的宽度与对应前馈网络相当，这个差距的影响未被定量分析
对"为什么变深度更好"缺乏解释性理论——仅是经验发现，合理的理论解释有待后续工作

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 提出了关于ResNet的全新视角（归纳偏好而非仅可训练性），实验设计极具创意
实验充分度: ⭐⭐⭐⭐ — 多数据集验证、有效消融、参数量控制，但缺少非视觉任务和更大规模实验
写作质量: ⭐⭐⭐⭐ — 文献综述详实，动机清晰，但部分数学记号（LaTeX源码泄漏）影响直接阅读
价值: ⭐⭐⭐⭐⭐ — 对理解残差连接的根本性质迈出了重要一步，可能影响未来的架构设计哲学

补充笔记¶

选用RepVGG-A2（23层，~26M参数，76.4% ImageNet acc）作为起始架构，因其无跨非线性层的残差连接但性能与ResNet50相当
\(L_{0.5}\) 正则化使用子二次惩罚，比 \(L_1\) 更强地推动参数向1收敛，实现更彻底的线性化
本文的核心洞察对Transformer架构也有启发：Transformer中的残差连接可能同样提供超越可训练性的归纳偏好