NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks¶

会议: ICLR 2026
arXiv: 2603.06922
代码: 项目主页
领域: LLM 分析 / 深度学习可解释性
关键词: FFN 分析, 特征谱动力学, 方差重注入, 优化器几何, 频谱诊断

一句话总结¶

提出 NerVE，一个轻量级的特征谱分析框架，通过四个互补指标（频谱熵、参与比、特征值早期富集、JS 散度）系统揭示了 LLM 中 FFN 非线性如何重新注入方差、重塑特征谱，以及架构和优化器选择如何印刻独特的频谱签名。

研究背景与动机¶

在 Transformer 中，FFN（前馈网络）占据了大部分参数和计算量，但相比注意力机制，FFN 的内部动力学研究严重不足。现有工作主要关注注意力图可视化和注意力机制分析，而 FFN 如何在高维潜在空间中组织和传播信息仍是开放问题。

关键挑战： - FFN 变换在高维空间中展开，不像注意力图那样可以直接可视化 - 缺乏系统、高效的工具来刻画 FFN 的非线性激活如何重塑潜在表征 - 已有工作 (Kobayashi et al., 2024; Balestriero et al., 2024) 分别从注意力图和分段仿射分割角度研究 FFN，但都未揭示非线性如何重新分配方差

核心洞察：FFN 的非线性激活不是简单地缩放激活值，而是主动将方差重新注入到未充分利用的特征模方向中，从根本上控制着潜在维度的利用率。

方法详解¶

整体框架¶

NerVE 框架包含四个主要组件： 1. 激活值收集（pre-activation 和 post-activation） 2. 协方差矩阵计算 3. 特征分解 4. 频谱指标计算

对每个 FFN 层 \(\ell\)，收集上投影后、激活前的 \(\text{PreAct}(X) = W_{up}x + b_1\) 和激活后、下投影前的 \(\text{PostAct}(X) = \sigma(W_{up}x + b_1)\)，计算各自的协方差矩阵并进行特征分解。

关键设计¶

频谱熵 (Spectral Entropy, SE)：
- \(SE = -\sum_{i=1}^{D} \hat{\lambda}_i \log \hat{\lambda}_i\)（归一化特征值的 Shannon 熵）
- 等价于量子信息论中的 von Neumann 熵
- 高 SE 表示方差均匀分布，低 SE 表示方差集中在少数方向
- 对中尾部特征值更敏感
参与比 (Participation Ratio, PR)：
- \(PR = \frac{(\sum_i \lambda_i)^2}{\sum_i \lambda_i^2}\)，范围 \([1, D]\)
- 衡量有效维度——多少个方向实质性地贡献了总方差
- PR ≈ 1 表示高度各向异性，PR ≈ D 表示方差均匀分布
- 对头部特征值更敏感
特征值早期富集 (Eigenvalue Early Enrichment, EEE)：
- \(EEE = \frac{2}{D} \sum_{k=1}^{D} (\tilde{S}_k - \frac{k}{D})\)
- 衡量特征谱的"头重"程度——累积方差多快地超过均匀基线
- EEE ≈ 1 表示方差极度集中，EEE ≈ 0 表示近似均匀
- 能区分利用不同分数潜在空间的谱
Jensen-Shannon 散度 (JS)：
- \(JS(P_{pre} \| P_{post}) = \frac{1}{2} D_{KL}(P_{pre} \| M) + \frac{1}{2} D_{KL}(P_{post} \| M)\)
- 量化非线性导致的 pre → post 分布转变
- 唯一跨两个谱的指标，其他三个描述单个谱

四个指标的设计原则：覆盖性（不同谱区域）、互补灵敏度、有界性、尺度不变性。

损失函数 / 训练策略¶

NerVE 是分析框架而非训练方法。实验模型的训练设置： - GPT-2 (125M)：CodeParrot 数据集，2.1B tokens，41K 步 - LLaMA 变体 (71M-1.3B)：C4 数据集 - GPT-2 (350M, 160M)：FineWeb 数据集，用于优化器对比 - MLP-Mixer (B/16)：CIFAR-100，用于跨架构验证 - 内存优化：逐层处理，peak GPU 内存仅需 2 × 36MB（3072 × 3072 协方差矩阵） - 计算开销：每 1000 步记录一次仅增加 ~1% 训练时间

实验关键数据¶

主实验¶

GPT-2 基线模型不同配置的困惑度：

配置	GELU	ReLU	NormFree GELU	NormFree ReLU	NormFree LReLU	WNorm	SNorm	HNorm
PPL↓	2.714	2.774	3.223	2.988	3.081	3.041	3.000	3.122

优化器对比 (GPT-2 350M, FineWeb)：

优化器	PPL (512 ctx)	PPL (1024 ctx)
AdamW	33.24	39.26
Dion	27.68	33.60
Muon	25.68	30.95

消融实验¶

配置	关键指标	说明
Pre vs Post SE/PR	Post > Pre（一致）	非线性重注入方差，扩展有效维度
GELU vs ReLU	GELU PR_post 更高	更平滑的非线性探索更广的子空间
NormFree + GELU	EEE_post ≈ 1, JS ≈ 0（前几层）	频谱惰性——非线性失效
NormFree + ReLU	PR 增益 20×-300×	ReLU 激进补偿，打破频谱惰性
PreLN vs PostLN	PreLN PR/D 最高且稳定	PreLN 提供最佳"宽度回报率"
RoPE vs NoPE	RoPE 中深层 PR 更高	RoPE 防止中深层频谱坍塌

关键发现¶

方差重注入是 FFN 非线性的核心功能：Post-activation 一致性地展现更高的 SE 和 PR，更低的 EEE——非线性将方差重新注入到未充分利用的方向，"唤醒"潜在空间中的死角
优化器决定 FFN 非线性的角色——修复 vs 精炼：
- AdamW：导致 pre-activation 频谱坍塌 → FFN 非线性被迫进入"修复模式"（大 PR 增益但低最终 PR_post）
- Muon：维持良好的 pre-activation 频谱 → FFN 非线性仅需"微调"（小 PR 增益但高 PR_post）→ 更低困惑度
频谱签名预测泛化：NerVE 指标与验证损失的 Pearson 相关系数 |r| ≥ 0.97（pre-activation），可作为前向传播的在线诊断工具
ReLU 在 NormFree 模型中可部分替代 LayerNorm：通过激进的方差重注入（PR 增益 20×-300×），ReLU 弥补了 ~50% 的困惑度差距
Muon 将表征容量集中在中间 FFN 层：最高的 PR_post 出现在中间层——困惑度排序追随中间层的 PR_post 趋势

亮点与洞察¶

全新视角：从特征谱动力学角度理解 FFN，揭示了非线性的"方差重注入"这一此前未被认识到的核心功能
实用诊断工具：NerVE 可以在训练中以极低开销 (~1%) 进行在线监控，无需额外前向传播
跨架构泛化：核心发现在 GPT-2、LLaMA、MLP-Mixer 上都成立，说明这是深度前馈网络的通用性质
优化器作为归纳偏置：不同优化器在 FFN 频谱上印刻了截然不同的几何签名，为优化器选择提供了新的诊断依据
四指标设计精巧：每个指标对谱的不同区域敏感，联合使用避免了单一指标的误导

局限与展望¶

逐层独立分析：没有显式量化跨层的频谱关系，无法捕捉层间的频谱连贯性
token 聚合：将所有 token 位置混合计算，忽略了位置特定的频谱结构（附录 J 显示 LayerNorm 模型中存在显著的位置依赖性）
不直接预测下游任务质量：NerVE 指标与泛化高度相关，但不是因果关系
大规模模型计算成本：对 \(D > 10K\) 的大 FFN 维度，全批协方差计算和特征分解可能昂贵（虽然 10% token 子采样可保留 pre-activation 诊断能力）
未覆盖注意力-FFN 交互：FFN 频谱如何受上游注意力层影响未被分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ （全新的 FFN 特征谱分析框架，核心洞察"方差重注入"非常新颖）
实验充分度: ⭐⭐⭐⭐⭐ （极其全面：多架构 × 多优化器 × 多归一化 × 多激活函数 × 多尺度 × 跨架构验证）
写作质量: ⭐⭐⭐⭐ （内容丰富但篇幅很长，附录详尽）
价值: ⭐⭐⭐⭐⭐ （为 LLM 架构设计和优化器选择提供了实质性的诊断工具和理论洞察）