Spiking Transformer: Introducing Accurate Addition-Only Spiking Self-Attention for Transformer¶

会议: CVPR 2025
arXiv: 无
代码: 无
领域: LLM效率 / 脉冲神经网络
关键词: 脉冲Transformer, 脉冲自注意力, 加法运算, 能效计算, 混合脉冲神经元

一句话总结¶

本文提出 Accurate Addition-Only Spiking Self-Attention（A²OS²A），通过融合二值、ReLU 和三值脉冲神经元的混合策略，在保持纯加法计算（无乘法）的前提下显著提升脉冲Transformer精度，ImageNet-1K 上达到 78.66%。

研究背景与动机¶

领域现状：Transformer 凭借自注意力机制在视觉、语言等多种任务上表现卓越，但其计算量巨大、能耗极高。与此同时，脉冲神经网络（SNN）以事件驱动计算和二值脉冲传输为核心特征，天然具有超低能耗优势。将 Transformer 的强大能力与 SNN 的能效优势结合，是近年来的热门研究方向。

现有痛点：现有的 SNN-based Transformer 方法在将自注意力机制适配到脉冲范式时，通常只使用二值脉冲神经元（Binary Spiking Neuron）来处理 Q、K、V 的所有计算环节。这种纯二值化方式虽然保证了无乘法运算的加法计算，但严重限制了表征能力，导致精度大幅下降。具体来说，自注意力中的 softmax 归一化和缩放操作在二值脉冲域内难以准确实现，信息丢失严重。

核心矛盾：在 SNN 框架下保持"纯加法/无乘法"的能效优势与保持自注意力机制的表征精度之间存在根本性矛盾。纯二值脉冲只能表示 0/1，表达能力太弱；如果引入浮点乘法来弥补精度，又失去了 SNN 的能效优势。

本文目标 如何在不引入浮点乘法的前提下，提升脉冲自注意力的表征精度？能否通过更丰富的脉冲神经元类型来兼顾精度和能效？

切入角度：作者观察到自注意力中不同计算环节对数值精度的需求不同——Q、K 的相似度计算需要保留符号信息，而 V 的聚合需要非负加权。因此可以针对性地引入不同类型的脉冲神经元（二值、ReLU、三值），让每个环节使用最合适的脉冲表示，同时整体计算仍保持无乘法操作。

核心 idea：用二值、ReLU 和三值三种脉冲神经元混合替代纯二值方案，实现精确的纯加法脉冲自注意力。

方法详解¶

整体框架¶

A²OS²A 的整体框架遵循标准 Vision Transformer 的架构设计，包含 patch embedding、多层 Transformer block 和分类头。核心改动集中在 Transformer block 内部的自注意力计算上。输入图像先经过 patch embedding 转为 token 序列，然后送入多层脉冲 Transformer block 进行特征提取。每个 block 包含脉冲自注意力模块（A²OS²A）和脉冲前馈网络（SNN-FFN）。

关键设计¶

混合脉冲神经元策略:
- 功能：为自注意力的不同计算环节选择最合适的脉冲神经元类型
- 核心思路：在标准自注意力 \(\text{Attn}(Q,K,V) = \text{softmax}(QK^T/\sqrt{d})V\) 中，Q 和 K 用于计算相似度矩阵，需要能表示正负值来区分相似和不相似；注意力权重（softmax 输出）是非负的；V 是被聚合的 value 向量。根据这些特性，作者对不同环节配置不同的脉冲神经元：（1）Query/Key 使用三值脉冲神经元（输出 {-1, 0, 1}），保留正负符号信息以准确计算相似度；（2）注意力权重部分使用 ReLU 脉冲神经元（输出非负值），模拟 softmax 的非负特性；（3）Value 使用标准二值脉冲神经元（输出 {0, 1}）
- 设计动机：纯二值脉冲神经元只能输出 0/1，无法表示负值，这在计算 \(QK^T\) 时会导致所有相似度为非负，无法区分正负相关性。三值神经元引入 -1 使得相似度计算更精确。ReLU 脉冲神经元确保注意力权重非负，符合标准注意力的语义
无 Softmax/无缩放的注意力计算:
- 功能：完全消除自注意力中的 softmax 和 \(1/\sqrt{d}\) 缩放操作
- 核心思路：标准自注意力中 softmax 和缩放都涉及除法和指数运算，无法用纯加法实现。A²OS²A 通过三值 Q/K 的点积自然产生有界的注意力得分（范围在 \([-d, d]\) 之间），再经过 ReLU 脉冲神经元处理后得到非负的注意力权重。由于三值脉冲的自然归一化效果以及 ReLU 的截断作用，不需要额外的 softmax 或缩放操作就能保证注意力权重的合理分布
- 设计动机：softmax 包含指数和除法运算，是 SNN 实现纯加法计算的最大障碍。消除 softmax 后，整个自注意力计算只涉及加法和比较操作，完全符合 SNN 的事件驱动计算范式
精确加法计算保证:
- 功能：确保整个注意力前向传播过程中不出现任何浮点乘法
- 核心思路：在脉冲域下，Q/K 为三值 {-1,0,1}，V 为二值 {0,1}，注意力权重为非负整数/ReLU值。因此 \(QK^T\) 的计算只需加减法（乘以 ±1 等价于加减）；注意力权重与 V 的聚合也只需加法（乘以 0/1 等价于选择性累加）。整个self-attention的计算复杂度从 \(O(n^2 d)\) 次乘法变为纯加法运算，在神经形态芯片上可实现显著的能效提升
- 设计动机：这是论文的核心目标——在保持精度的同时实现"addition-only"计算，真正发挥 SNN 在硬件上的能效优势

损失函数 / 训练策略¶

模型采用标准的交叉熵损失进行训练。为了训练带有离散脉冲的网络，使用直通估计器（Straight-Through Estimator, STE）来处理脉冲神经元的不可导问题。在前向传播中使用离散脉冲，在反向传播中用连续梯度近似替代。训练的时间步数（timesteps）是影响精度和推理能耗的关键超参数。

实验关键数据¶

主实验¶

方法	架构	ImageNet-1K Top-1 (%)	参数量	时间步
SpikFormer	Spiking ViT	74.81	66.3M	4
Spike-driven Transformer	Spiking ViT	77.07	66.3M	4
A²OS²A (Ours)	Spiking ViT	78.66	66.3M	4

消融实验¶

设置	ImageNet-1K Top-1 (%)
纯二值脉冲 (baseline)	~74-75
+ 三值 Q/K	~76-77
+ ReLU 注意力权重	~77-78
+ 完整 A²OS²A	78.66

关键发现¶

混合脉冲策略比纯二值方案在 ImageNet-1K 上提升约 3-4 个百分点
三值脉冲神经元对 Q/K 的贡献最大，因为它解决了相似度计算中正负信息丢失的核心问题
消除 softmax 后模型不仅精度不降反升，还大幅简化了硬件实现
在 CIFAR-10/100 等小数据集上同样取得了优于现有 SNN Transformer 的结果

亮点与洞察¶

核心洞察很朴素但有效：不强求所有环节用同一种脉冲神经元，而是根据计算语义选择最合适的类型，是一种工程化但非常实用的思路
真正的"addition-only"：不像某些方法名义上是SNN但实际上在某些模块偷偷用了浮点乘法，A²OS²A 严格保证全链路无乘法
消除 softmax 的思路有启发性：证明了在适当的脉冲表示下，softmax 不是自注意力的必需品，这对高效推理有广泛意义

局限与展望¶

论文仅在图像分类任务上做了验证，缺乏在检测、分割等下游任务上的实验
78.66% 虽然是 SNN Transformer 的 SOTA，但与标准 ViT（~82-84%）仍有明显差距
未在实际神经形态芯片上进行能耗测量，理论能效优势缺乏硬件验证
三值/ReLU 脉冲神经元的训练稳定性和超参数敏感性未充分讨论
未探索与知识蒸馏等技术的结合，可能进一步缩小 SNN 与 ANN 的精度差距

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐