Optimizer Choice Matters for the Emergence of Neural Collapse¶

会议: ICLR 2026
arXiv: 2602.16642
代码: 无
领域: 优化理论 / 深度学习理论
关键词: Neural Collapse, 优化器选择, 权重衰减耦合, AdamW vs Adam, 隐式偏置

一句话总结¶

通过 3,900+ 次训练实验和理论分析，揭示了优化器选择（特别是权重衰减的耦合方式）对 Neural Collapse 现象涌现起关键决定性作用——AdamW（解耦权重衰减）无法产生 Neural Collapse，而 SGD 和 Adam（耦合权重衰减）可以。

研究背景与动机¶

Neural Collapse (NC) 是 Papyan et al. (2020) 发现的深度网络训练末期现象：最后一层特征向量和分类器权重会自组织成高度对称的几何结构。NC 包含四个性质： - NC1：类内变异性消失（特征坍缩到类均值） - NC2：类中心收敛到 Simplex ETF（等角紧框架） - NC3：分类器权重与类均值对齐（Self-Duality） - NC4：分类简化为最近类中心分类器

已有的理论分析大多忽略了优化器的角色，暗示 NC 对所有优化方法是普遍的。本文挑战这一假设，证明优化器的选择——特别是权重衰减的耦合方式——对 NC 的涌现至关重要。一个关键发现是：Adam 能产生 NC，但算法上非常相似的 AdamW 却不能。

方法详解¶

整体框架¶

本文在理论和实验两个层面研究优化器对 NC 的影响： 1. 引入新的诊断指标 NC0 2. 对 SGD 和 SignGD（Adam/AdamW 的特例）进行理论分析 3. 大规模实验（3,900+ 训练运行）验证理论

关键设计¶

NC0 诊断指标：
- 定义：\(\alpha_t = \frac{1}{K}\|W_t^\top \mathbf{1}\|_2^2\)，即最后一层权重矩阵行和的平方范数
- 核心性质：NC0 收敛到零是 NC2 和 NC3 成立的必要条件（Proposition 2.1）
- 优势：比原始 NC 指标更易追踪和理论分析；若 NC0 发散，可以确定性地断言 NC 不可能发生
权重衰减耦合 vs 解耦：
- 耦合权重衰减（如 SGD/Adam）：\(V_{t+1} = \beta V_t + \nabla L_{CE} + \lambda W_t\)，衰减项在梯度内部
- 解耦权重衰减（如 SGDW/AdamW）：\(W_{t+1} = (1-\eta\lambda)W_t - \eta V_{t+1}\)，衰减项直接作用于参数
- 对于 vanilla SGD 两者等价，但对自适应优化器（如 Adam）两者不等价
理论定理：
- Theorem 3.1 (SGD + 解耦 WD)：NC0 以指数速率收敛到零，速率与 \(\lambda\) 成正比
- Theorem 3.2 (SGD + 耦合 WD)：NC0 以指数速率收敛到零，速率与 \(\lambda\) 和 \(\beta\) 成正比
- Theorem 3.3 (SignGD + 解耦 WD，即 AdamW 特例)：NC0 单调递增到正常数 \(\frac{(K-2)^2}{\lambda^2}\)，不收敛到零
- Theorem 3.4 (SignGD + 耦合 WD，即 Adam 特例)：在学习率衰减策略下，NC0 可以收敛到零

理论关键洞察：交叉熵损失梯度的行和 \(\nabla L_{CE}(W_t)^\top \mathbf{1}_K = 0\) 为零，这使得 NC0 的动力学仅依赖于权重衰减和动量。

损失函数 / 训练策略¶

实验统一使用交叉熵损失 + L2 正则化
ResNet9 和 VGG9 架构
MNIST、FashionMNIST、CIFAR10 数据集
6 个优化器：Adam, AdamW, SGD, SGDW, Signum, SignumW
3 个学习率 × 6 个动量值 × 6 个权重衰减值 = 108 种超参数组合/优化器
200 epochs，batch size 128，学习率在 1/3 和 2/3 处衰减 10 倍

实验关键数据¶

主实验¶

ResNet9 在 FashionMNIST 上的最终 NC 指标（越低越好）：

优化器	NC0↓	NC1↓	NC2↓	NC3↓
SGD	2.14e-04 (<-99.5%)	0.05 (-99.3%)	0.29 (-63.0%)	0.35 (-75.1%)
Adam	0.34 (-80.6%)	0.04 (-99.5%)	0.29 (-63.9%)	0.29 (-79.5%)
AdamW	5.33 (>100%)	0.20 (-97.2%)	0.54 (-32.4%)	0.78 (-45.2%)
SGDW	0.55 (-68.9%)	0.26 (-96.3%)	0.46 (-42.4%)	0.80 (-43.5%)

消融实验¶

配置	关键指标	说明
Adam vs AdamW 插值	随耦合 WD 增加，NC0/NC2/NC3 平滑改善	验证准确率基本不变
动量对 NC 的加速	相同训练损失下，mom=0.9 比 0.7 的 NC 指标明显更低	动量的 NC 加速效应超越了对训练损失的加速
最优 NC3 的超参数	SGD NC3=0.13, AdamW NC3=0.49	SGD 在所有优化器中实现最强 NC

关键发现¶

耦合权重衰减是自适应优化器产生 NC 的必要条件：AdamW/SignumW 的 NC 指标始终远高于 Adam/Signum，即使权重衰减高几个数量级也无法改善
动量加速 NC 但不仅仅加速收敛：两个相同训练损失但不同动量的 SGD 运行会到达几何结构截然不同的解
SGD 的 NC 行为对耦合/解耦不敏感：SGD 和 SGDW 的 NC 指标差距较小，与理论一致
部分 Neural Collapse：AdamW 可以在 NC1、NC2 上取得最优值，同时 NC0 发散、NC3 不满足——NC 性质不一定同时出现
NC4 是冗余的：只要训练准确率接近 100%，NC4 总是满足，与其他 NC 指标不相关

亮点与洞察¶

提出了 NC0 这一新的诊断指标：收敛到零是 NC 的必要条件，比原始指标更易追踪和分析
挑战了 NC 的普遍性假设：证明优化器选择决定性地影响 NC 是否涌现
揭示了被忽视的细微差异：Adam 和 AdamW 之间看似微小的权重衰减耦合方式差异，导致截然不同的表征几何
NC 不一定意味着更好的泛化：所有优化器都能达到相似的验证准确率，但 NC 强度差异显著——这限制了用 NC 来理解泛化
规模宏大的实验：3,900+ 训练运行，系统性地控制变量

局限与展望¶

理论分析限于简化设定：Theorem 3.3/3.4 基于 UFM（无约束特征模型）中的 SignGD，未完全捕捉深度网络和自适应优化器的复杂性
仅分析 NC0：完整理解 NC1-NC3 在现实优化动力学下的行为仍是开放问题
仅限最后一层：未分析中间层的 NC 性质（已有工作表明中间层也可能出现 NC）
未覆盖新型优化器：Lion, MARS, Shampoo, SOAP, Muon 等新优化器的 NC 行为有待探索
需要扩展到更大模型：ViT 和 DenseNet 等更大架构的实验有限（附录中有初步 ViT 结果）

评分¶

新颖性: ⭐⭐⭐⭐⭐ （首次揭示优化器依赖的 NC 涌现，提出 NC0 指标）
实验充分度: ⭐⭐⭐⭐⭐ （3,900+ 运行，系统性变量控制，多数据集多架构）
写作质量: ⭐⭐⭐⭐ （理论和实验结合紧密，结构清晰）
价值: ⭐⭐⭐⭐ （对理解深度学习优化和表征几何有重要启示）