跳转至

ResNets Are Deeper Than You Think

会议: NeurIPS 2025
arXiv: 2506.14386
代码: 暂无
领域: 深度学习理论 / 网络架构
关键词: 残差网络, 函数空间, 归纳偏好, 可训练性, 变深度网络

一句话总结

证明残差网络与前馈网络居于不同的函数空间(非简单重参数化),并通过后训练部分线性化实验表明变深度架构(类ResNet)即使在排除可训练性差异后仍优于固定深度架构,暗示残差连接提供了超越优化的归纳偏好。

研究背景与动机

残差连接自He et al. (2016)提出以来,至今仍是几乎所有现代深度架构(Transformer、大语言模型等)的标配。通常认为残差连接的成功归因于显著改善了可训练性:残差网络训练更快、更稳定、精度更高。但这引出一个根本性问题——残差网络是否仅仅是前馈网络的重参数化(即覆盖相同的函数空间),还是它们实质上居于不同的假设空间?

大量研究尝试弥合前馈网络和残差网络之间的性能差距:精心设计的初始化方案、动态等距(Dynamic Isometry/DKS)、归一化层等。但至今无人成功完全消除这个差距。即便解决了数值稳定性问题(前向传播稳定、梯度不爆炸/不粉碎、不丢秩),残差网络仍然优于同等条件下的前馈网络。

这引发了核心假说:残差网络的优势不仅来自优化层面,还来自其函数空间的归纳偏好——变深度网络(包含长短混合路径)可能比固定深度网络更好地匹配自然数据分布。但直接训练比较面临困难:前馈网络的数值问题使得任何性能差距都可能被归结为"训练不充分"。因此需要设计巧妙的实验来剥离可训练性的影响。

方法详解

整体框架

本文采用双管齐下的策略:(1)解析论证证明残差网络和前馈网络的函数空间确实不同;(2)设计后训练部分线性化实验,在排除可训练性差异后比较变深度和固定深度架构的泛化性能。

关键设计

  1. 函数空间不等价的解析证明: 给出精确定义——重参数化要求存在权重映射 \(h(\theta)\) 使得 \(g(x, h(\theta)) = f(x, \theta)\),等价重参数化还要求相同的宽度和深度。对于使用非注入非线性和方阵的一般情况,无法将ResNet等价重参数化为前馈网络。命题1展示了一种可行但受限的构造:残差块 \(R(x) = \phi(\bar{W}x + \bar{b}) + x\) 可以重参数化为前馈层,但需要双倍宽度和额外深度,且在 \(\epsilon \to 0\) 极限下才精确。设计动机:严格建立"ResNet ≠ 前馈网络的重参数化",为归纳偏好假说提供理论基础。

  2. 后训练部分线性化实验设计: 这是本文最精巧的实验设计。起点是一个已训练好的前馈网络(RepVGG-A2),然后在后训练阶段用正则化手段将部分ReLU单元线性化:

    • 将ReLU替换为PReLU(参数化ReLU),斜率 \(\alpha_i\) 可学习
    • 添加正则项 \(L_{0.5} = \sum |\mathcal{1} - \alpha_i|^{0.5}\),激励 \(\alpha_i \to 1\)(即线性化)
    • 通道级(channel-wise)线性化:每个通道一个 \(\alpha_i\),可产生变深度网络(部分通道保持非线性→类ResNet)
    • 层级(layer-wise)线性化:每层一个 \(\alpha_i\),只能产生固定深度网络(更浅的前馈网络)

设计动机:从同一已训练网络出发(排除训练差异),两种线性化方式产生不同"形状"的网络,公平比较其泛化性能。

  1. 标准化平均路径长度(NAPL)作为深度度量: 定义NAPL为从输入到输出路径上遇到的非线性单元的平均数量。对层级线性化,NAPL就是剩余的深度减一。对通道级线性化,NAPL可以是非整数。在相同NAPL下比较两种方法的性能差距。设计动机:提供一个公平的深度度量,使得变深度和固定深度网络的比较有意义。

损失函数 / 训练策略

训练分为两阶段:(1)标准训练阶段直到收敛(使用原始交叉熵损失);(2)后训练阶段在交叉熵基础上加正则项 \(\omega \cdot L_{0.5}\),调节 \(\omega\) 控制线性化程度。当 \(|\alpha_i - 1| < 0.01\) 时将其冻结为1。ImageNet后训练10epoch,CIFAR-100后训练60epoch(更长以排除收敛问题)。

实验关键数据

主实验

数据集 NAPL范围 通道级(变深度) 层级(固定深度) 性能差距
ImageNet 12以下 更高accuray 较低 差距随NAPL减小而增大
ImageNet 12以上 相当 相当 差距不明显
CIFAR-100 3-5 更高 较低 显著差距,误差线不重叠
CIFAR-10 更低阈值 更高 较低 差距在更低NAPL处出现

消融实验

配置 关键指标 说明
起点为ResNet56(有残差) 通道级 vs 层级 差距大幅缩小(NAPL>4时几乎消失),确认差距来自路径结构
起点为RepVGG(无残差) 通道级 vs 层级 差距显著,固定深度明显更差
参数量对比 参数差异 ~0.03% 排除参数量差异作为性能差距的原因
路径长度直方图 通道级提取 vs 标准ResNet 提取的网络呈现长短路径混合分布,与ResNet类似

关键发现

  • 从前馈网络出发的通道级线性化自发涌现了类ResNet的变深度结构(长短路径混合),这是优化的结果而非预设
  • 在NAPL较低时,变深度架构一致优于固定深度,且差距在更难的数据集(ImageNet > CIFAR-100 > CIFAR-10)上更显著
  • 当从ResNet出发做线性化时,通道级和层级差距大幅缩小,确认了性能差距来自"只有长路径"的约束
  • CIFAR-100在NAPL~3处出现性能轻微上升,因为线性化也平滑了损失面
  • 路径长度分布近似二项分布,与Veit et al. (2016)的理论预测一致

亮点与洞察

  • 反转问题的思路极其巧妙:不是试图"修好前馈网络使其匹配ResNet"(这条路走了近十年仍未成功),而是从同一训练好的网络出发"雕刻"出两种不同形状的子网络来比较,从根本上排除了可训练性的干扰
  • 涌现结构的发现:通道级线性化从固定深度模型中自发产生变深度结构,暗示变深度可能是自然数据的一种内在偏好
  • 对ResNet理解的深化:从"ResNet更好训练"推进到"ResNet的函数空间更匹配自然数据"——这是对该领域近十年讨论的重要推进

局限与展望

  • 后训练线性化的网络不保证是全局最优的子网络——非凸优化可能导致两种方法落入不同局部最优解
  • 仅在视觉任务(ImageNet、CIFAR)上验证,缺少其他模态(NLP、语音)的证据
  • 通道级方法比层级方法多约0.03%的参数——虽然做了额外实验排除,但不是完全等参数的比较
  • 重参数化不可行的证明需要双倍宽度——实际中ResNet的宽度与对应前馈网络相当,这个差距的影响未被定量分析
  • 对"为什么变深度更好"缺乏解释性理论——仅是经验发现,合理的理论解释有待后续工作

相关工作与启发

  • 与Veit et al. (2016)的联系:Veit将ResNet解释为指数多条不同长度路径的集成,但只讨论了可训练性;本文将这一视角推进到泛化/归纳偏好层面
  • 与DKS/Martens et al. (2021)的对比:即使通过DKS解决了所有数值病态问题,ImageNet上仍有>1%的泛化差距,支持"超越可训练性"的论点
  • 启发:变深度可能是深度学习成功的一个基本成分——这一发现可能影响未来架构设计,例如在Transformer中有选择地线性化某些注意力头

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 提出了关于ResNet的全新视角(归纳偏好而非仅可训练性),实验设计极具创意
  • 实验充分度: ⭐⭐⭐⭐ — 多数据集验证、有效消融、参数量控制,但缺少非视觉任务和更大规模实验
  • 写作质量: ⭐⭐⭐⭐ — 文献综述详实,动机清晰,但部分数学记号(LaTeX源码泄漏)影响直接阅读
  • 价值: ⭐⭐⭐⭐⭐ — 对理解残差连接的根本性质迈出了重要一步,可能影响未来的架构设计哲学

补充笔记

  • 选用RepVGG-A2(23层,~26M参数,76.4% ImageNet acc)作为起始架构,因其无跨非线性层的残差连接但性能与ResNet50相当
  • \(L_{0.5}\) 正则化使用子二次惩罚,比 \(L_1\) 更强地推动参数向1收敛,实现更彻底的线性化
  • 本文的核心洞察对Transformer架构也有启发:Transformer中的残差连接可能同样提供超越可训练性的归纳偏好

相关论文