跳转至

Spiking Transformer: Introducing Accurate Addition-Only Spiking Self-Attention for Transformer

会议: CVPR 2025
arXiv: 无
代码: 无
领域: LLM效率 / 脉冲神经网络
关键词: 脉冲Transformer, 脉冲自注意力, 加法运算, 能效计算, 混合脉冲神经元

一句话总结

本文提出 Accurate Addition-Only Spiking Self-Attention(A²OS²A),通过融合二值、ReLU 和三值脉冲神经元的混合策略,在保持纯加法计算(无乘法)的前提下显著提升脉冲Transformer精度,ImageNet-1K 上达到 78.66%。

研究背景与动机

领域现状:Transformer 凭借自注意力机制在视觉、语言等多种任务上表现卓越,但其计算量巨大、能耗极高。与此同时,脉冲神经网络(SNN)以事件驱动计算和二值脉冲传输为核心特征,天然具有超低能耗优势。将 Transformer 的强大能力与 SNN 的能效优势结合,是近年来的热门研究方向。

现有痛点:现有的 SNN-based Transformer 方法在将自注意力机制适配到脉冲范式时,通常只使用二值脉冲神经元(Binary Spiking Neuron)来处理 Q、K、V 的所有计算环节。这种纯二值化方式虽然保证了无乘法运算的加法计算,但严重限制了表征能力,导致精度大幅下降。具体来说,自注意力中的 softmax 归一化和缩放操作在二值脉冲域内难以准确实现,信息丢失严重。

核心矛盾:在 SNN 框架下保持"纯加法/无乘法"的能效优势与保持自注意力机制的表征精度之间存在根本性矛盾。纯二值脉冲只能表示 0/1,表达能力太弱;如果引入浮点乘法来弥补精度,又失去了 SNN 的能效优势。

本文目标 如何在不引入浮点乘法的前提下,提升脉冲自注意力的表征精度?能否通过更丰富的脉冲神经元类型来兼顾精度和能效?

切入角度:作者观察到自注意力中不同计算环节对数值精度的需求不同——Q、K 的相似度计算需要保留符号信息,而 V 的聚合需要非负加权。因此可以针对性地引入不同类型的脉冲神经元(二值、ReLU、三值),让每个环节使用最合适的脉冲表示,同时整体计算仍保持无乘法操作。

核心 idea:用二值、ReLU 和三值三种脉冲神经元混合替代纯二值方案,实现精确的纯加法脉冲自注意力。

方法详解

整体框架

A²OS²A 的整体框架遵循标准 Vision Transformer 的架构设计,包含 patch embedding、多层 Transformer block 和分类头。核心改动集中在 Transformer block 内部的自注意力计算上。输入图像先经过 patch embedding 转为 token 序列,然后送入多层脉冲 Transformer block 进行特征提取。每个 block 包含脉冲自注意力模块(A²OS²A)和脉冲前馈网络(SNN-FFN)。

关键设计

  1. 混合脉冲神经元策略:

    • 功能:为自注意力的不同计算环节选择最合适的脉冲神经元类型
    • 核心思路:在标准自注意力 \(\text{Attn}(Q,K,V) = \text{softmax}(QK^T/\sqrt{d})V\) 中,Q 和 K 用于计算相似度矩阵,需要能表示正负值来区分相似和不相似;注意力权重(softmax 输出)是非负的;V 是被聚合的 value 向量。根据这些特性,作者对不同环节配置不同的脉冲神经元:(1)Query/Key 使用三值脉冲神经元(输出 {-1, 0, 1}),保留正负符号信息以准确计算相似度;(2)注意力权重部分使用 ReLU 脉冲神经元(输出非负值),模拟 softmax 的非负特性;(3)Value 使用标准二值脉冲神经元(输出 {0, 1})
    • 设计动机:纯二值脉冲神经元只能输出 0/1,无法表示负值,这在计算 \(QK^T\) 时会导致所有相似度为非负,无法区分正负相关性。三值神经元引入 -1 使得相似度计算更精确。ReLU 脉冲神经元确保注意力权重非负,符合标准注意力的语义
  2. 无 Softmax/无缩放的注意力计算:

    • 功能:完全消除自注意力中的 softmax 和 \(1/\sqrt{d}\) 缩放操作
    • 核心思路:标准自注意力中 softmax 和缩放都涉及除法和指数运算,无法用纯加法实现。A²OS²A 通过三值 Q/K 的点积自然产生有界的注意力得分(范围在 \([-d, d]\) 之间),再经过 ReLU 脉冲神经元处理后得到非负的注意力权重。由于三值脉冲的自然归一化效果以及 ReLU 的截断作用,不需要额外的 softmax 或缩放操作就能保证注意力权重的合理分布
    • 设计动机:softmax 包含指数和除法运算,是 SNN 实现纯加法计算的最大障碍。消除 softmax 后,整个自注意力计算只涉及加法和比较操作,完全符合 SNN 的事件驱动计算范式
  3. 精确加法计算保证:

    • 功能:确保整个注意力前向传播过程中不出现任何浮点乘法
    • 核心思路:在脉冲域下,Q/K 为三值 {-1,0,1},V 为二值 {0,1},注意力权重为非负整数/ReLU值。因此 \(QK^T\) 的计算只需加减法(乘以 ±1 等价于加减);注意力权重与 V 的聚合也只需加法(乘以 0/1 等价于选择性累加)。整个self-attention的计算复杂度从 \(O(n^2 d)\) 次乘法变为纯加法运算,在神经形态芯片上可实现显著的能效提升
    • 设计动机:这是论文的核心目标——在保持精度的同时实现"addition-only"计算,真正发挥 SNN 在硬件上的能效优势

损失函数 / 训练策略

模型采用标准的交叉熵损失进行训练。为了训练带有离散脉冲的网络,使用直通估计器(Straight-Through Estimator, STE)来处理脉冲神经元的不可导问题。在前向传播中使用离散脉冲,在反向传播中用连续梯度近似替代。训练的时间步数(timesteps)是影响精度和推理能耗的关键超参数。

实验关键数据

主实验

方法 架构 ImageNet-1K Top-1 (%) 参数量 时间步
SpikFormer Spiking ViT 74.81 66.3M 4
Spike-driven Transformer Spiking ViT 77.07 66.3M 4
A²OS²A (Ours) Spiking ViT 78.66 66.3M 4

消融实验

设置 ImageNet-1K Top-1 (%)
纯二值脉冲 (baseline) ~74-75
+ 三值 Q/K ~76-77
+ ReLU 注意力权重 ~77-78
+ 完整 A²OS²A 78.66

关键发现

  • 混合脉冲策略比纯二值方案在 ImageNet-1K 上提升约 3-4 个百分点
  • 三值脉冲神经元对 Q/K 的贡献最大,因为它解决了相似度计算中正负信息丢失的核心问题
  • 消除 softmax 后模型不仅精度不降反升,还大幅简化了硬件实现
  • 在 CIFAR-10/100 等小数据集上同样取得了优于现有 SNN Transformer 的结果

亮点与洞察

  • 核心洞察很朴素但有效:不强求所有环节用同一种脉冲神经元,而是根据计算语义选择最合适的类型,是一种工程化但非常实用的思路
  • 真正的"addition-only":不像某些方法名义上是SNN但实际上在某些模块偷偷用了浮点乘法,A²OS²A 严格保证全链路无乘法
  • 消除 softmax 的思路有启发性:证明了在适当的脉冲表示下,softmax 不是自注意力的必需品,这对高效推理有广泛意义

局限与展望

  • 论文仅在图像分类任务上做了验证,缺乏在检测、分割等下游任务上的实验
  • 78.66% 虽然是 SNN Transformer 的 SOTA,但与标准 ViT(~82-84%)仍有明显差距
  • 未在实际神经形态芯片上进行能耗测量,理论能效优势缺乏硬件验证
  • 三值/ReLU 脉冲神经元的训练稳定性和超参数敏感性未充分讨论
  • 未探索与知识蒸馏等技术的结合,可能进一步缩小 SNN 与 ANN 的精度差距

相关工作与启发

  • SpikFormer(ICLR 2023):早期将 Transformer 引入 SNN 的工作,使用纯二值脉冲
  • Spike-driven Transformer:提出脉冲驱动的 Transformer,但精度仍受限
  • MetaSpikFormer:结合 Meta-Learning 和 SNN Transformer
  • 本文的混合脉冲策略对未来设计高效推理架构有启发——不必追求单一表示的极简性,针对性地选择合适的数值表示可能是更好的方向

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐

相关论文