Training Deep Normalization-Free Spiking Neural Networks with Lateral Inhibition¶
论文信息¶
- 会议: ICLR 2026
- arXiv: 2509.23253
- 代码: https://github.com/vwOvOwv/DeepEISNN
- 领域: 脉冲神经网络 / 神经形态计算 / 生物启发计算
- 关键词: SNN, 侧向抑制, 兴奋-抑制回路, 无归一化训练, 生物合理性
一句话总结¶
提出基于皮层兴奋-抑制(E-I)回路的无归一化学习框架 DeepEISNN,通过 E-I Init 和 E-I Prop 两项技术实现深度 SNN 的稳定端到端训练,兼顾性能与生物合理性。
研究背景与动机¶
核心矛盾¶
SNN 训练面临性能与生物合理性的权衡: - 高性能方法(反向传播 + 批归一化):将 SNN 当作普通深度学习构件,牺牲基本生物属性 - 高生物合理性方法(STDP 等):训练不稳定,仅适用于浅层网络
为什么需要去归一化?¶
BatchNorm 等归一化方案从整批输入收集统计量,在生物系统中没有已知类比。这使得使用归一化的 SNN 作为大规模皮层计算的计算平台变得不合理。
E-I 回路的重要性¶
皮层中约 80% 为兴奋性神经元,20% 为抑制性神经元。E-I 交互在增益控制、神经振荡、选择性注意等方面起关键作用,但现有深度 SNN 通常忽略这一基本原理。
方法详解¶
E-I 回路设计¶
每层包含 \(n_E^{[l]}\) 个兴奋性和 \(n_I^{[l]}\) 个抑制性神经元(比例 4:1)。
兴奋性神经元(LIF 模型): $\(\mathbf{u}_E^{[l]}[t+1] = \left(1-\frac{1}{\tau_E}\right)\left(\mathbf{u}_E^{[l]}[t] - \theta_E \cdot \mathbf{s}_E^{[l]}[t]\right) + \mathbf{I}_E^{[l]}[t]\)$
抑制性神经元(快速脉冲近似): $\(\mathbf{s}_I^{[l]}[t] \approx \max(0, \mathbf{I}_I^{[l]}[t])\)$
由于 \(\tau_I \ll \tau_E\),抑制性神经元近似为瞬态稳态,输出类似 ReLU。
侧向抑制分解: - 减法抑制(E-I 平衡):\(\mathbf{I}_{EI,\text{sub}}^{[l]}[t] = \boldsymbol{W}_{EI}^{[l]} \mathbf{s}_I^{[l]}[t]\) - 除法抑制(增益控制):\(\mathbf{I}_{EI,\text{div}}^{[l]}[t] = \boldsymbol{W}_{EI}^{[l]}(\mathbf{g}_I^{[l]} \odot \mathbf{s}_I^{[l]}[t])\)
输入整合: $\(\mathbf{I}_{\text{int}}^{[l]}[t] = \mathbf{g}_E^{[l]} \odot \frac{\mathbf{I}_{EE}^{[l]}[t] - \mathbf{I}_{EI,\text{sub}}^{[l]}[t]}{\mathbf{I}_{EI,\text{div}}^{[l]}[t]} + \mathbf{b}_E^{[l]}\)$
E-I Init:动态参数初始化¶
标准 Xavier/Kaiming 初始化不适用于 E-I 约束(权重须同号)。
目标 1:E-I 平衡(减法抑制) $\(\mathbb{E}[\mathbf{I}_{EE,i}^{[l]}] \approx \mathbb{E}[\mathbf{I}_{EI,\text{sub},i}^{[l]}]\)$
使用指数分布初始化兴奋权重,抑制权重设为 \(1/n_I^{[l]}\)。
目标 2:增益控制(除法抑制) $\(\mathbb{E}[\mathbf{I}_{EI,\text{div},i}^{[l]}] = \text{std}(\mathbf{I}_{EE,i}^{[l]})\)$
设置 \(\mathbf{g}_I^{[l]}\) 的每个元素为 \(\sqrt{\frac{2-p}{dp}}\),实现类似归一化的效果。
动态估计平均发放概率 \(p\):使用训练集第一批数据计算。
E-I Prop:稳定端到端训练¶
自适应稳定化:替代固定 \(\epsilon\),使用样本内最小正值动态替换零值除数。
直通估计器(STE):前向执行自适应稳定化,反向将替换操作视为恒等函数。
梯度缩放:将 \(\boldsymbol{W}_{EI}^{[l]}\) 的梯度缩放 \(1/d\),平衡前向和侧向路径的更新幅度。
实验¶
分类任务性能¶
| 数据集 | 方法 | 架构 | E-I | BN-free | 准确率(%) |
|---|---|---|---|---|---|
| CIFAR-10 | Vanilla BN | ResNet-18 | ✗ | ✗ | 95.37 |
| CIFAR-10 | TEBN | ResNet-19 | ✗ | ✗ | 94.70 |
| CIFAR-10 | DeepEISNN | ResNet-18 | ✓ | ✓ | 92.05 |
| CIFAR-10 | DANN (ANN) | VGG-16 | ✓ | ✓ | 88.54 |
| CIFAR-10 | BackEISNN | 5-layer CNN | ✓ | ✓ | 90.93 |
| DVS-Gesture | DeepEISNN | VGG-8 | ✓ | ✓ | 94.86 |
| CIFAR10-DVS | DeepEISNN | VGG-8 | ✓ | ✓ | 77.66 |
关键发现¶
- DeepEISNN (ResNet-18) 在 CIFAR-10 上达 92.05%,超越所有无归一化基线
- 在神经形态数据集上(DVS-Gesture, CIFAR10-DVS)超越多个使用 BN 的方法
- 在 TinyImageNet 上达 50.29%,证明可扩展到更大数据集
- E-I Init 和 E-I Prop 的每个组件都是必需的——缺少任何一个都导致训练崩溃
消融实验¶
- 无 E-I Init → 训练失败(发放率崩溃)
- 无自适应稳定化 → 数值爆炸
- 无 STE → 梯度方向错误
- 无梯度缩放 → 抑制路径梯度过大
亮点¶
- 首次在深度 SNN 中实现无归一化训练的同时保持竞争力性能
- 生物合理性与工程性能的平衡:E-I 回路不仅是正则化技巧,也是生物建模
- 理论分析完善:从指数分布推导到增益控制条件
- 为大规模皮层计算模拟提供平台
局限性¶
- 与使用 BN 的 SNN 仍有 ~3% 精度差距
- 固定 4:1 的 E-I 比例是否最优未探索
- 快速脉冲近似将抑制性神经元简化为 ReLU,可能过度简化
- 仅在分类任务上验证,未测试生成或序列建模任务
相关工作¶
- SNN 归一化: BNTT, tdBN, TEBN, TAB — BN 的 SNN 变体
- E-I 网络: Cornford et al. (2021) — ANN 中的 E-I 网络
- SNN 训练: STBP, TEBN — 代理梯度和归一化技术
评分¶
- 创新性: ⭐⭐⭐⭐ — E-I 回路替代归一化的思路新颖且有生物依据
- 实验充分性: ⭐⭐⭐⭐ — 多数据集多架构验证
- 写作质量: ⭐⭐⭐⭐ — 从生物原理到工程实现的推导清晰
- 实用性: ⭐⭐⭐ — 性能差距仍存在,但为 NeuroAI 提供重要基础
相关论文¶
- [AAAI 2026] TDSNNs: Competitive Topographic Deep Spiking Neural Networks for Visual Cortex Modeling
- [AAAI 2026] I2E: Real-Time Image-to-Event Conversion for High-Performance Spiking Neural Networks
- [CVPR 2025] VKDNW: Training-free Neural Architecture Search through Variance of Knowledge of Deep Network Weights
- [ICLR 2026] Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks
- [ICLR 2026] Addressing Divergent Representations from Causal Interventions on Neural Networks