Spiking Transformer: Introducing Accurate Addition-Only Spiking Self-Attention for Transformer¶
会议: CVPR 2025
arXiv: 无
代码: 无
领域: LLM效率 / 脉冲神经网络
关键词: 脉冲Transformer, 脉冲自注意力, 加法运算, 能效计算, 混合脉冲神经元
一句话总结¶
本文提出 Accurate Addition-Only Spiking Self-Attention(A²OS²A),通过融合二值、ReLU 和三值脉冲神经元的混合策略,在保持纯加法计算(无乘法)的前提下显著提升脉冲Transformer精度,ImageNet-1K 上达到 78.66%。
研究背景与动机¶
领域现状:Transformer 凭借自注意力机制在视觉、语言等多种任务上表现卓越,但其计算量巨大、能耗极高。与此同时,脉冲神经网络(SNN)以事件驱动计算和二值脉冲传输为核心特征,天然具有超低能耗优势。将 Transformer 的强大能力与 SNN 的能效优势结合,是近年来的热门研究方向。
现有痛点:现有的 SNN-based Transformer 方法在将自注意力机制适配到脉冲范式时,通常只使用二值脉冲神经元(Binary Spiking Neuron)来处理 Q、K、V 的所有计算环节。这种纯二值化方式虽然保证了无乘法运算的加法计算,但严重限制了表征能力,导致精度大幅下降。具体来说,自注意力中的 softmax 归一化和缩放操作在二值脉冲域内难以准确实现,信息丢失严重。
核心矛盾:在 SNN 框架下保持"纯加法/无乘法"的能效优势与保持自注意力机制的表征精度之间存在根本性矛盾。纯二值脉冲只能表示 0/1,表达能力太弱;如果引入浮点乘法来弥补精度,又失去了 SNN 的能效优势。
本文目标 如何在不引入浮点乘法的前提下,提升脉冲自注意力的表征精度?能否通过更丰富的脉冲神经元类型来兼顾精度和能效?
切入角度:作者观察到自注意力中不同计算环节对数值精度的需求不同——Q、K 的相似度计算需要保留符号信息,而 V 的聚合需要非负加权。因此可以针对性地引入不同类型的脉冲神经元(二值、ReLU、三值),让每个环节使用最合适的脉冲表示,同时整体计算仍保持无乘法操作。
核心 idea:用二值、ReLU 和三值三种脉冲神经元混合替代纯二值方案,实现精确的纯加法脉冲自注意力。
方法详解¶
整体框架¶
A²OS²A 的整体框架遵循标准 Vision Transformer 的架构设计,包含 patch embedding、多层 Transformer block 和分类头。核心改动集中在 Transformer block 内部的自注意力计算上。输入图像先经过 patch embedding 转为 token 序列,然后送入多层脉冲 Transformer block 进行特征提取。每个 block 包含脉冲自注意力模块(A²OS²A)和脉冲前馈网络(SNN-FFN)。
关键设计¶
-
混合脉冲神经元策略:
- 功能:为自注意力的不同计算环节选择最合适的脉冲神经元类型
- 核心思路:在标准自注意力 \(\text{Attn}(Q,K,V) = \text{softmax}(QK^T/\sqrt{d})V\) 中,Q 和 K 用于计算相似度矩阵,需要能表示正负值来区分相似和不相似;注意力权重(softmax 输出)是非负的;V 是被聚合的 value 向量。根据这些特性,作者对不同环节配置不同的脉冲神经元:(1)Query/Key 使用三值脉冲神经元(输出 {-1, 0, 1}),保留正负符号信息以准确计算相似度;(2)注意力权重部分使用 ReLU 脉冲神经元(输出非负值),模拟 softmax 的非负特性;(3)Value 使用标准二值脉冲神经元(输出 {0, 1})
- 设计动机:纯二值脉冲神经元只能输出 0/1,无法表示负值,这在计算 \(QK^T\) 时会导致所有相似度为非负,无法区分正负相关性。三值神经元引入 -1 使得相似度计算更精确。ReLU 脉冲神经元确保注意力权重非负,符合标准注意力的语义
-
无 Softmax/无缩放的注意力计算:
- 功能:完全消除自注意力中的 softmax 和 \(1/\sqrt{d}\) 缩放操作
- 核心思路:标准自注意力中 softmax 和缩放都涉及除法和指数运算,无法用纯加法实现。A²OS²A 通过三值 Q/K 的点积自然产生有界的注意力得分(范围在 \([-d, d]\) 之间),再经过 ReLU 脉冲神经元处理后得到非负的注意力权重。由于三值脉冲的自然归一化效果以及 ReLU 的截断作用,不需要额外的 softmax 或缩放操作就能保证注意力权重的合理分布
- 设计动机:softmax 包含指数和除法运算,是 SNN 实现纯加法计算的最大障碍。消除 softmax 后,整个自注意力计算只涉及加法和比较操作,完全符合 SNN 的事件驱动计算范式
-
精确加法计算保证:
- 功能:确保整个注意力前向传播过程中不出现任何浮点乘法
- 核心思路:在脉冲域下,Q/K 为三值 {-1,0,1},V 为二值 {0,1},注意力权重为非负整数/ReLU值。因此 \(QK^T\) 的计算只需加减法(乘以 ±1 等价于加减);注意力权重与 V 的聚合也只需加法(乘以 0/1 等价于选择性累加)。整个self-attention的计算复杂度从 \(O(n^2 d)\) 次乘法变为纯加法运算,在神经形态芯片上可实现显著的能效提升
- 设计动机:这是论文的核心目标——在保持精度的同时实现"addition-only"计算,真正发挥 SNN 在硬件上的能效优势
损失函数 / 训练策略¶
模型采用标准的交叉熵损失进行训练。为了训练带有离散脉冲的网络,使用直通估计器(Straight-Through Estimator, STE)来处理脉冲神经元的不可导问题。在前向传播中使用离散脉冲,在反向传播中用连续梯度近似替代。训练的时间步数(timesteps)是影响精度和推理能耗的关键超参数。
实验关键数据¶
主实验¶
| 方法 | 架构 | ImageNet-1K Top-1 (%) | 参数量 | 时间步 |
|---|---|---|---|---|
| SpikFormer | Spiking ViT | 74.81 | 66.3M | 4 |
| Spike-driven Transformer | Spiking ViT | 77.07 | 66.3M | 4 |
| A²OS²A (Ours) | Spiking ViT | 78.66 | 66.3M | 4 |
消融实验¶
| 设置 | ImageNet-1K Top-1 (%) |
|---|---|
| 纯二值脉冲 (baseline) | ~74-75 |
| + 三值 Q/K | ~76-77 |
| + ReLU 注意力权重 | ~77-78 |
| + 完整 A²OS²A | 78.66 |
关键发现¶
- 混合脉冲策略比纯二值方案在 ImageNet-1K 上提升约 3-4 个百分点
- 三值脉冲神经元对 Q/K 的贡献最大,因为它解决了相似度计算中正负信息丢失的核心问题
- 消除 softmax 后模型不仅精度不降反升,还大幅简化了硬件实现
- 在 CIFAR-10/100 等小数据集上同样取得了优于现有 SNN Transformer 的结果
亮点与洞察¶
- 核心洞察很朴素但有效:不强求所有环节用同一种脉冲神经元,而是根据计算语义选择最合适的类型,是一种工程化但非常实用的思路
- 真正的"addition-only":不像某些方法名义上是SNN但实际上在某些模块偷偷用了浮点乘法,A²OS²A 严格保证全链路无乘法
- 消除 softmax 的思路有启发性:证明了在适当的脉冲表示下,softmax 不是自注意力的必需品,这对高效推理有广泛意义
局限与展望¶
- 论文仅在图像分类任务上做了验证,缺乏在检测、分割等下游任务上的实验
- 78.66% 虽然是 SNN Transformer 的 SOTA,但与标准 ViT(~82-84%)仍有明显差距
- 未在实际神经形态芯片上进行能耗测量,理论能效优势缺乏硬件验证
- 三值/ReLU 脉冲神经元的训练稳定性和超参数敏感性未充分讨论
- 未探索与知识蒸馏等技术的结合,可能进一步缩小 SNN 与 ANN 的精度差距
相关工作与启发¶
- SpikFormer(ICLR 2023):早期将 Transformer 引入 SNN 的工作,使用纯二值脉冲
- Spike-driven Transformer:提出脉冲驱动的 Transformer,但精度仍受限
- MetaSpikFormer:结合 Meta-Learning 和 SNN Transformer
- 本文的混合脉冲策略对未来设计高效推理架构有启发——不必追求单一表示的极简性,针对性地选择合适的数值表示可能是更好的方向
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐
相关论文¶
- [CVPR 2025] Associative Transformer
- [CVPR 2025] CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction
- [NeurIPS 2025] Frequency-Aware Token Reduction for Efficient Vision Transformer
- [ICCV 2025] LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer
- [NeurIPS 2025] Learning in Compact Spaces with Approximately Normalized Transformer