跳转至

Auto-Compressing Networks

会议: NeurIPS 2025
arXiv: 2506.09714
代码: 有(论文中声明)
领域: 网络架构 / 模型压缩
关键词: 自动压缩, 残差连接, 层冗余, 前向连接, 持续学习

一句话总结

Auto-Compressing Networks(ACN)用长程前向连接(所有层输出直接汇聚到最终输出)替代短残差连接,使得梯度的 Direct Gradient 成分远强于 Forward Gradient,隐式地将信息压缩到早期层——ViT 仅需 6 层达到标准 12 层性能,BERT 节省 75% 层数,还额外获得噪声鲁棒性(+6.4%)和持续学习抗遗忘(-18%)。

研究背景与动机

  1. 领域现状:深度残差网络中很多层是冗余的——可以直接删除而不影响性能。短残差连接创造了指数数量的隐式路径,但很多路径未被充分利用。
  2. 现有痛点:(a) 残差网络不主动压缩——深层仍然被分配计算资源即使它们在做恒等映射;(b) LayerDrop/LayerSkip 需要显式剪枝策略;(c) 没有架构能自动决定"需要几层"。
  3. 核心矛盾:残差连接虽然解决了梯度消失,但也让深层变"懒"——因为短路径提供了梯度逃生通道,深层不需要学有意义的变换。
  4. 本文要解决什么? 设计一种架构使网络自动将信息压缩到必要的最少层数中。
  5. 切入角度:将所有层输出直接连接到最终输出(而非逐层累加),使直接梯度(DG)远强于前向梯度(FG),隐式实现逐层训练——信息自动被推向更早的层。
  6. 核心 idea 一句话:长程前向连接 → 高 DG/FG 比 → 信息压缩到早期层 → 深层自动退化为恒等 → 自动确定最优深度。

方法详解

整体框架

输入 \(x_0\)\(L\) 个变换层 → ACN 汇聚: \(y_A = \sum_{i=0}^L x_i\)(所有层输出+输入直接求和作为最终输出)→ 训练中深层因 DG > FG 而信息压缩到早期层 → 推理时可丢弃冗余深层

关键设计

  1. 长程前向连接 vs 短残差连接:
  2. 做什么:改变梯度流向使信息自动压缩
  3. 核心思路:ACN 的前向路径是单一的(\(x_i\) 直接到 \(y\)),反向路径有 \(L-i+1\) 条——线性增长。而 ResNet 有 \(2^{L-i}\) 条——指数增长。线性路径使 DG 成分主导
  4. 设计动机:DG/FG 比在 ACN 中远高于 ResNet(尤其早期层 2-3×),这使得早期层获得更强的直接学习信号,而深层缺乏 FG 支持自动退化

  5. 自动深度适应:

  6. 做什么:根据任务难度自动使用不同数量的层
  7. 核心思路:实验显示 AC-Mixer 在 2/5/10 类 CIFAR-10 上分别使用 8/10/12 层(自动适应),ResNet 始终用满层数
  8. 设计动机:ACN 天然提供了一种"免搜索"的深度选择机制

  9. 噪声鲁棒性和持续学习附带收益:

  10. 做什么:ACN 顺带获得了更好的噪声鲁棒性和抗遗忘能力
  11. 核心思路:信息压缩到早期层 → 深层做恒等 → 深层对噪声不敏感。持续学习中压缩的表征更不容易被新任务覆盖
  12. 设计动机:ACN 的结构特性天然产生这些有利副效应

损失函数 / 训练策略

  • 标准交叉熵损失
  • 训练时间约 2× 于 ResNet(需更多 epoch 收敛)
  • 适用于 MLP-Mixer、ViT、BERT 等多种架构

实验关键数据

主实验

任务 ACN 层数 ResNet 层数 性能
ImageNet-1K (ViT) 6 12 相当
CIFAR-10 (MLP-Mixer) 6-8 16 相当
BERT (GLUE) ~25% 全部 性能保持
鲁棒性 ResNet ViT ACN ViT
高斯噪声 σ=0.4 45.46% 51.89% (+6.4%)
椒盐噪声 p=0.1 10.34% 19.98% (+9.6%)
持续学习 ResNet ACN 改善
Split CIFAR-100 遗忘 baseline -18% 显著
迁移 C-100→C-10 79-83% 85.38% +2.5%+

消融实验

配置 发现
DG 成分分析 ACN 中 DG 占主导,DG/FG 比 2-3× 高于 ResNet
仅 DG 的 ACN 仍能自动压缩——DG 是核心机制
ACN vs DenseNet-Mixer ACN > DenseNet ≈ DenseFormer

关键发现

  • ACN 将 ViT 从 12 层压缩到 6 层——50% 层数减少且性能不降
  • 压缩是自动的——不需要搜索或剪枝策略
  • 噪声鲁棒性和持续学习是免费的附带收益——架构特性决定的
  • 任务越简单使用的层越少——2 类用 8 层,10 类用 12 层

亮点与洞察

  • "长连接替代短连接"这个简单改变产生了深远影响——自动压缩+鲁棒性+抗遗忘
  • DG/FG 比的分析提供了理解压缩机制的清晰框架
  • 自适应深度是最有价值的特性——免搜索的架构效率在实际部署中极有意义

局限性 / 可改进方向

  • 训练时间约 2× 于 ResNet(700 vs 300 epochs)
  • 仅在中小规模模型上验证——十亿参数级别未测试
  • 无理论保证压缩总是最优的
  • 推理时仍需要手动确定截断深度

相关工作与启发

  • vs ResNet: 短残差连接→长前向连接的简单替换,但效果本质不同
  • vs LayerDrop: LayerDrop 需要显式剪枝策略,ACN 自动压缩
  • vs DenseNet: DenseNet 每层连接到所有后续层(前向+侧向),ACN 只连接到输出(更简洁)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 简单架构改变产生深远影响的优雅工作
  • 实验充分度: ⭐⭐⭐⭐ MLP-Mixer+ViT+BERT + 鲁棒性+持续+迁移多维度
  • 写作质量: ⭐⭐⭐⭐ DG/FG 分析直观
  • 价值: ⭐⭐⭐⭐⭐ 改变了对残差连接作用的理解,提供了自动压缩的新范式