跳转至

Sparse Training from Random Initialization: Aligning Lottery Ticket Masks using Weight Symmetry

元信息

  • 会议: ICML 2025
  • arXiv: 2505.05143
  • 代码: GitHub
  • 领域: 模型压缩 / 稀疏训练
  • 关键词: 彩票假说, 权重对称性, 置换匹配, 稀疏训练, 线性模式连通性

一句话总结

从权重对称性角度解释彩票假说(LTH)掩码不能迁移到新初始化的原因,并提出通过置换匹配对齐LTH掩码与新初始化的优化盆地来实现稀疏训练。

研究背景与动机

领域现状

领域现状:LTH**:密集网络中存在稀疏子网络,用原始初始化训练可匹配密集网络性能

现有痛点

现有痛点:核心问题**:LTH掩码与其发现时的初始化绑定,不能迁移到新的随机初始化

核心矛盾

核心矛盾:权重对称性**:神经网络存在置换不变性,同一层交换两个神经元不改变功能

解决思路

解决思路:假说**:掩码迁移失败是因为LTH掩码的优化盆地与新初始化的优化盆地不对齐

方法详解

1. 核心假说

不同随机初始化训练的模型收敛到同一盆地(模置换),因此LTH掩码需要相应置换才能与新初始化对齐。

2. 置换匹配

使用激活匹配(Ainsworth et al., 2023)找到置换映射 \(\pi\): $\(\pi_l = \arg\min_\pi \|Z_l^B - \pi Z_l^A\| = \arg\max_\pi \langle \pi, Z^B(Z^A)^\top \rangle_F\)$ 通过匈牙利算法求解线性分配问题。

3. 掩码对齐

  • 训练模型A和B到收敛
  • 用激活匹配找 \(\pi\) 使 \(\pi(w_A^{t=T})\)\(w_B^{t=T}\) 对齐
  • 将LTH掩码 \(m_A\) 置换为 \(\pi(m_A)\)
  • \(\pi(m_A)\)\(w_B^{t=k}\)(重绕点)开始稀疏训练

4. 方差坍缩修复

使用REPAIR方法修正插值网络激活统计量的方差坍缩问题,验证线性模式连通性。

实验

主实验结果

数据集/模型 稀疏度 naive vs permuted 差距
ResNet20/CIFAR-10 90% permuted显著优于naive
ResNet20/CIFAR-100 90% 一致性优势
VGG11/CIFAR-10 90% permuted接近LTH
ResNet50/ImageNet 95% permuted优于naive约2%

宽度效应

模型越宽,置换匹配越准确,permuted与LTH的差距越小(从width=1到16逐步缩小)。

多样性分析(Table 1)

方法 测试精度 集成精度 分歧度 KL JS
LTH 91.15% 91.43% 0.035 0.038 0.011
Permuted 89.38% 91.75% 0.107 0.273 0.091

Permuted方案功能多样性显著高于LTH,集成性能反而更好。

亮点与洞察

  • 新颖洞察:从权重对称性理解LTH掩码不可迁移性
  • 修正了Paul et al. (2023)关于LTH与密集解不在同一盆地的结论(考虑方差坍缩后它们连通)
  • 置换后的模型功能多样性远高于LTH,有利于集成
  • 方法简洁,仅需标准激活匹配+掩码置换

局限与展望

  • 需要训练两个密集模型才能得到置换映射,增加计算成本
  • 置换匹配是NP难问题,贪心解在ImageNet上不够精确
  • 当前硬件无法有效利用非结构化稀疏性
  • 模型剪枝可能引入算法偏见(Hooker et al., 2020)

评分

⭐⭐⭐⭐ 从对称性视角解释LTH限制,洞察力强,实验充分展示了掩码对齐的有效性和多样性优势。

相关论文