跳转至

Adaptive Width Neural Networks

会议: ICLR 2026
arXiv: 2501.15889
代码: https://github.com/nec-research/Adaptive-Width-Neural-Networks
领域: 模型压缩 / 神经架构学习
关键词: 自适应宽度, 变分推断, 神经元重要性排序, 网络压缩, 超参数学习

一句话总结

提出AWN框架,通过变分推断在训练过程中自动学习每层的无上界宽度(神经元数量),利用单调递减的重要性函数对神经元施加软排序,实现宽度自适应于任务难度,并支持零成本的训练后截断压缩。

研究背景与动机

  1. 领域现状:近70年来,神经网络的层宽度一直依赖手动选择或超参搜索(grid search/NAS),这已成为深度学习的基础性未解问题。
  2. 现有痛点:宽度作为超参的搜索空间随层数指数增长,实践中多采用"所有层相同宽度"的简化策略。对于数十亿参数的基础模型,超参调优的计算成本完全不可承受。
  3. 核心矛盾:网络需要"足够宽"以学习好的表示,但"过宽"浪费资源。现有方法要么在固定宽度空间中搜索(NAS),要么需要额外的训练-裁剪流程(剪枝/蒸馏)。
  4. 本文要解决什么:能否在单次训练中,让每层宽度随梯度下降自动增长/收缩,且无需预设上界?
  5. 切入角度:引入隐变量 \(\lambda_\ell\) 控制每层截断宽度,用单调递减的重要性分布对神经元排序——低序号神经元重要、高序号神经元次要,新增神经元自然处于低重要性位置。
  6. 核心idea一句话:将宽度学习形式化为变分推断问题,通过ELBO目标同时优化宽度参数和网络权重。

方法详解

整体框架

AWN(Adaptive Width Networks)为每层引入两组隐变量:\(\lambda_\ell\)(控制宽度)和 \(\theta_\ell\)(网络权重)。使用变分推断最大化ELBO,在训练过程中动态调整每层神经元数量 \(D_\ell\)。宽度变化通过标准反向传播实现,无需特殊优化器。

关键设计

  1. 概率图模型与变分目标
  2. 做什么:将宽度学习建模为概率推断问题
  3. 核心思路:假设存在无穷序列的i.i.d.隐变量 \(\theta_{\ell n}\)(第 \(\ell\) 层第 \(n\) 个神经元的权重),引入隐变量 \(\lambda_\ell\) 通过分布 \(f_\ell\) 的分位函数确定有效宽度 \(D_\ell\)。变分分布 \(q(\lambda, \theta)\) 使得超出 \(D_\ell\) 的神经元回退到先验。最终ELBO包含三项:宽度正则 \(\log \frac{p(\nu_\ell)}{q(\nu_\ell)}\)、权重正则 \(\sum_{n=1}^{D_\ell} \log \frac{p(\rho_{\ell n})}{q(\rho_{\ell n})}\)、预测性能 \(\sum_i \log p(y_i | \nu, \rho, x_i)\)
  4. 设计动机:概率框架天然提供正则化(先验)和不确定性量化,且变分参数 \(\nu_\ell, \rho_{\ell n}\) 可直接作为网络参数通过梯度优化

  5. 神经元重要性软排序(Soft Ordering)

  6. 做什么:用单调递减函数 \(f_\ell(j; \nu_\ell)\) 对每个神经元的激活进行重标定
  7. 核心思路:修改标准MLP激活为 \(h_j^\ell = \sigma(\sum_k w_{jk}^\ell h_k^{\ell-1}) \cdot f_\ell(j; \nu_\ell)\),其中 \(f_\ell\) 采用离散化指数分布。低序号神经元的 \(f_\ell\) 值大(重要),高序号神经元值小(不重要),新增神经元自动获得低重要性
  8. 设计动机:(a) 打破权重矩阵置换对称性,消除训练初期的"jostling"效应;(b) 新增神经元不会突然扰动网络输出;(c) 自然支持后训练截断——删除末尾神经元影响最小。需配合有界激活(ReLU6/tanh)防止后续层权重补偿重标定因子

  9. 适配深度AWN的Kaiming+初始化(Theorem 3.1)

  10. 做什么:推导考虑重要性重标定的权重初始化方案
  11. 核心思路:要求 \(\text{Var}[w_{jk}^\ell] = \frac{2}{\sum_{j=1}^{D_{\ell-1}} f_\ell^2(j)}\),使得深层激活方差在初始化时保持常数。与标准Kaiming初始化的区别在于分母从 \(D_{\ell-1}\) 变为 \(\sum_j f_\ell^2(j) < D_{\ell-1}\)
  12. 设计动机:不做这个调整,重标定因子会导致深层激活快速衰减到零,梯度消失无法训练

训练策略

  • 每个训练步先通过分位函数更新各层宽度 \(D_\ell\),然后正常前向-反向传播
  • 宽度增加时从标准正态初始化新神经元权重,减少时丢弃多余权重
  • mini-batch训练时预测损失需按 \(N/M\) 缩放(贝叶斯视角下数据越多正则项应越弱)
  • 推荐使用有界激活函数(ReLU6)保证宽度收敛

实验关键数据

主实验

在表格、图像、文本、序列、图数据上全面测试:

模型/数据集 Fixed Acc/Loss AWN Acc/Loss Fixed宽度 AWN学习宽度
MLP/DoubleMoon 100.0 100.0 8 8.1
MLP/Spiral 99.5 99.8 16 65.9
MLP/SpiralHard 98.0 100.0 32 227.4
ResNet-20/CIFAR10 91.4 91.4 Linear 80.1
RNN/PMNIST 91.1 95.7 24 806.3
GIN/REDDIT-B 87.0 90.2 96-320 793.6
Transformer/Multi30k 1.43 1.51 24576 123.2 (200x少)

消融实验

重要性函数族 平均准确率 最大准确率 学习宽度
Exponential 80.27 100.00 954
Power Law 81.82 100.00 2952 (长尾)
Sigmoidal 76.85 100.00 427 (尖锐过渡)

关键发现

  • 宽度自适应任务难度:DoubleMoon→Spiral→SpiralHard,学习宽度从8→66→227,完美符合直觉
  • 训练后截断:Spiral数据集上83单元的MLP可截断30%(~58单元)而准确率不变,之后平滑退化——零额外成本的"蒸馏"
  • 在线压缩:在SpiralHard上,通过1000轮后引入信息先验,宽度从800降至300(-62%)且准确率不变
  • Transformer 200x压缩:Multi30k翻译任务上FFN学到的宽度仅123(固定为24576),loss仅微升0.08
  • 起始宽度在有界激活下不影响最终收敛宽度,证明超参空间确实被缩减

亮点与洞察

  • 概率формулировка的优雅性:将宽度学习完全纳入标准变分推断框架,无需启发式规则,仅靠反向传播即可增减神经元——这是将"架构搜索"变为"参数学习"的范式转换
  • 软排序→免费截断的附带效果非常实用:训练完直接删末尾列/行即可压缩,比剪枝简单得多
  • Kaiming+初始化虽然技术上不难,但对深度AWN的可训练性至关重要,说明这类"动态架构"方法的初始化需要特殊关注
  • Transformer的200x压缩结果暗示LLM中的FFN可能存在巨大冗余

局限性 / 可改进方向

  • 目前仅学习MLP层的宽度,CNN的filter数量需要不同的形式化(作者明确说beyond scope)
  • CIFAR100上AWN偶发不收敛(avg 63.1 vs fixed 66.5),稳定性待提升
  • 指数分布作为 \(f_\ell\) 的默认选择缺乏理论最优性支撑,不同分布族导致截然不同的宽度(exponential 954 vs power law 2952)
  • 未在真正的大规模模型(如LLM)上验证,Transformer实验仅限于小型Multi30k翻译任务
  • 变分推断的一阶近似(\(\mathbb{E}[f(\lambda)] \approx f(\nu)\))丢失了不确定性信息,削弱了贝叶斯框架的优势

相关工作与启发

  • vs NAS: NAS搜索离散架构空间,需多次训练;AWN在连续空间中一次训练搞定,但仅覆盖宽度维度
  • vs 剪枝: 剪枝需预训练一个大模型再裁剪;AWN从一开始就学习合适宽度,且可同时增长和收缩
  • vs Unbounded Depth Network (Nazaret & Blei 2022): 同一思路扩展到宽度维度,但需要单调递减的重要性分布(深度不需要)
  • vs Firefly (Wu et al. 2020): Firefly交替训练和增长,需要启发式规则;AWN纯梯度驱动

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将宽度学习形式化为变分推断并支持无上界增长,概念优雅且理论扎实
  • 实验充分度: ⭐⭐⭐⭐ 覆盖5种数据域+充分的消融分析,但缺乏大规模验证
  • 写作质量: ⭐⭐⭐⭐⭐ 数学严谨,实验分析透彻,行文逻辑清晰
  • 价值: ⭐⭐⭐⭐ 概念上很有吸引力,但在大规模实际应用中的可行性待验证