ResNets Are Deeper Than You Think¶
会议: NeurIPS 2025
arXiv: 2506.14386
代码: 暂无
领域: 深度学习理论 / 网络架构
关键词: 残差网络, 函数空间, 归纳偏好, 可训练性, 变深度网络
一句话总结¶
证明残差网络与前馈网络居于不同的函数空间(非简单重参数化),并通过后训练部分线性化实验表明变深度架构(类ResNet)即使在排除可训练性差异后仍优于固定深度架构,暗示残差连接提供了超越优化的归纳偏好。
研究背景与动机¶
残差连接自He et al. (2016)提出以来,至今仍是几乎所有现代深度架构(Transformer、大语言模型等)的标配。通常认为残差连接的成功归因于显著改善了可训练性:残差网络训练更快、更稳定、精度更高。但这引出一个根本性问题——残差网络是否仅仅是前馈网络的重参数化(即覆盖相同的函数空间),还是它们实质上居于不同的假设空间?
大量研究尝试弥合前馈网络和残差网络之间的性能差距:精心设计的初始化方案、动态等距(Dynamic Isometry/DKS)、归一化层等。但至今无人成功完全消除这个差距。即便解决了数值稳定性问题(前向传播稳定、梯度不爆炸/不粉碎、不丢秩),残差网络仍然优于同等条件下的前馈网络。
这引发了核心假说:残差网络的优势不仅来自优化层面,还来自其函数空间的归纳偏好——变深度网络(包含长短混合路径)可能比固定深度网络更好地匹配自然数据分布。但直接训练比较面临困难:前馈网络的数值问题使得任何性能差距都可能被归结为"训练不充分"。因此需要设计巧妙的实验来剥离可训练性的影响。
方法详解¶
整体框架¶
本文采用双管齐下的策略:(1)解析论证证明残差网络和前馈网络的函数空间确实不同;(2)设计后训练部分线性化实验,在排除可训练性差异后比较变深度和固定深度架构的泛化性能。
关键设计¶
-
函数空间不等价的解析证明: 给出精确定义——重参数化要求存在权重映射 \(h(\theta)\) 使得 \(g(x, h(\theta)) = f(x, \theta)\),等价重参数化还要求相同的宽度和深度。对于使用非注入非线性和方阵的一般情况,无法将ResNet等价重参数化为前馈网络。命题1展示了一种可行但受限的构造:残差块 \(R(x) = \phi(\bar{W}x + \bar{b}) + x\) 可以重参数化为前馈层,但需要双倍宽度和额外深度,且在 \(\epsilon \to 0\) 极限下才精确。设计动机:严格建立"ResNet ≠ 前馈网络的重参数化",为归纳偏好假说提供理论基础。
-
后训练部分线性化实验设计: 这是本文最精巧的实验设计。起点是一个已训练好的前馈网络(RepVGG-A2),然后在后训练阶段用正则化手段将部分ReLU单元线性化:
- 将ReLU替换为PReLU(参数化ReLU),斜率 \(\alpha_i\) 可学习
- 添加正则项 \(L_{0.5} = \sum |\mathcal{1} - \alpha_i|^{0.5}\),激励 \(\alpha_i \to 1\)(即线性化)
- 通道级(channel-wise)线性化:每个通道一个 \(\alpha_i\),可产生变深度网络(部分通道保持非线性→类ResNet)
- 层级(layer-wise)线性化:每层一个 \(\alpha_i\),只能产生固定深度网络(更浅的前馈网络)
设计动机:从同一已训练网络出发(排除训练差异),两种线性化方式产生不同"形状"的网络,公平比较其泛化性能。
- 标准化平均路径长度(NAPL)作为深度度量: 定义NAPL为从输入到输出路径上遇到的非线性单元的平均数量。对层级线性化,NAPL就是剩余的深度减一。对通道级线性化,NAPL可以是非整数。在相同NAPL下比较两种方法的性能差距。设计动机:提供一个公平的深度度量,使得变深度和固定深度网络的比较有意义。
损失函数 / 训练策略¶
训练分为两阶段:(1)标准训练阶段直到收敛(使用原始交叉熵损失);(2)后训练阶段在交叉熵基础上加正则项 \(\omega \cdot L_{0.5}\),调节 \(\omega\) 控制线性化程度。当 \(|\alpha_i - 1| < 0.01\) 时将其冻结为1。ImageNet后训练10epoch,CIFAR-100后训练60epoch(更长以排除收敛问题)。
实验关键数据¶
主实验¶
| 数据集 | NAPL范围 | 通道级(变深度) | 层级(固定深度) | 性能差距 |
|---|---|---|---|---|
| ImageNet | 12以下 | 更高accuray | 较低 | 差距随NAPL减小而增大 |
| ImageNet | 12以上 | 相当 | 相当 | 差距不明显 |
| CIFAR-100 | 3-5 | 更高 | 较低 | 显著差距,误差线不重叠 |
| CIFAR-10 | 更低阈值 | 更高 | 较低 | 差距在更低NAPL处出现 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 起点为ResNet56(有残差) | 通道级 vs 层级 | 差距大幅缩小(NAPL>4时几乎消失),确认差距来自路径结构 |
| 起点为RepVGG(无残差) | 通道级 vs 层级 | 差距显著,固定深度明显更差 |
| 参数量对比 | 参数差异 ~0.03% | 排除参数量差异作为性能差距的原因 |
| 路径长度直方图 | 通道级提取 vs 标准ResNet | 提取的网络呈现长短路径混合分布,与ResNet类似 |
关键发现¶
- 从前馈网络出发的通道级线性化自发涌现了类ResNet的变深度结构(长短路径混合),这是优化的结果而非预设
- 在NAPL较低时,变深度架构一致优于固定深度,且差距在更难的数据集(ImageNet > CIFAR-100 > CIFAR-10)上更显著
- 当从ResNet出发做线性化时,通道级和层级差距大幅缩小,确认了性能差距来自"只有长路径"的约束
- CIFAR-100在NAPL~3处出现性能轻微上升,因为线性化也平滑了损失面
- 路径长度分布近似二项分布,与Veit et al. (2016)的理论预测一致
亮点与洞察¶
- 反转问题的思路极其巧妙:不是试图"修好前馈网络使其匹配ResNet"(这条路走了近十年仍未成功),而是从同一训练好的网络出发"雕刻"出两种不同形状的子网络来比较,从根本上排除了可训练性的干扰
- 涌现结构的发现:通道级线性化从固定深度模型中自发产生变深度结构,暗示变深度可能是自然数据的一种内在偏好
- 对ResNet理解的深化:从"ResNet更好训练"推进到"ResNet的函数空间更匹配自然数据"——这是对该领域近十年讨论的重要推进
局限与展望¶
- 后训练线性化的网络不保证是全局最优的子网络——非凸优化可能导致两种方法落入不同局部最优解
- 仅在视觉任务(ImageNet、CIFAR)上验证,缺少其他模态(NLP、语音)的证据
- 通道级方法比层级方法多约0.03%的参数——虽然做了额外实验排除,但不是完全等参数的比较
- 重参数化不可行的证明需要双倍宽度——实际中ResNet的宽度与对应前馈网络相当,这个差距的影响未被定量分析
- 对"为什么变深度更好"缺乏解释性理论——仅是经验发现,合理的理论解释有待后续工作
相关工作与启发¶
- 与Veit et al. (2016)的联系:Veit将ResNet解释为指数多条不同长度路径的集成,但只讨论了可训练性;本文将这一视角推进到泛化/归纳偏好层面
- 与DKS/Martens et al. (2021)的对比:即使通过DKS解决了所有数值病态问题,ImageNet上仍有>1%的泛化差距,支持"超越可训练性"的论点
- 启发:变深度可能是深度学习成功的一个基本成分——这一发现可能影响未来架构设计,例如在Transformer中有选择地线性化某些注意力头
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 提出了关于ResNet的全新视角(归纳偏好而非仅可训练性),实验设计极具创意
- 实验充分度: ⭐⭐⭐⭐ — 多数据集验证、有效消融、参数量控制,但缺少非视觉任务和更大规模实验
- 写作质量: ⭐⭐⭐⭐ — 文献综述详实,动机清晰,但部分数学记号(LaTeX源码泄漏)影响直接阅读
- 价值: ⭐⭐⭐⭐⭐ — 对理解残差连接的根本性质迈出了重要一步,可能影响未来的架构设计哲学
补充笔记¶
- 选用RepVGG-A2(23层,~26M参数,76.4% ImageNet acc)作为起始架构,因其无跨非线性层的残差连接但性能与ResNet50相当
- \(L_{0.5}\) 正则化使用子二次惩罚,比 \(L_1\) 更强地推动参数向1收敛,实现更彻底的线性化
- 本文的核心洞察对Transformer架构也有启发:Transformer中的残差连接可能同样提供超越可训练性的归纳偏好
相关论文¶
- [ICCV 2025] I Am Big, You Are Little; I Am Right, You Are Wrong
- [ICCV 2025] You Share Beliefs, I Adapt: Progressive Heterogeneous Collaborative Perception
- [ACL 2025] Meta-Learning Neural Mechanisms rather than Bayesian Priors
- [ACL 2025] Byte Latent Transformer: Patches Scale Better Than Tokens
- [ACL 2025] The Knowledge Microscope: Features as Better Analytical Lenses than Neurons