Spiking Transformer with Spatial-Temporal Attention¶

会议: CVPR 2025
arXiv: 2409.19764
代码: 无
领域: 脉冲神经网络 / 高效推理
关键词: 脉冲Transformer、时空注意力、SNN、能效推理、代理梯度

一句话总结¶

将空间-时间注意力机制融入脉冲Transformer架构，通过时空解耦的注意力设计和脉冲驱动的自注意机制，在保持SNN能效优势的同时缩小与ANN的性能差距，在多个视觉基准上达到SNN SOTA。

领域现状：SNN因低功耗和生物可解释性受关注，但与ANN存在显著精度差距。近期Spikformer/Spike-driven Transformer将注意力引入SNN，取得进展。

核心矛盾：标准自注意力的softmax和浮点乘法不兼容SNN的二值脉冲特性，直接移植导致能效丧失；而简化版注意力又损失精度。

核心思路：将注意力解耦为空间注意力（捕捉patch间关系）和时间注意力（捕捉时间步间动态），分别用脉冲兼容的操作实现。

本文目标：### 整体框架图像 → 脉冲编码 → 多层脉冲Transformer（空间注意力+时间注意力交替） → 分类输出。

图像 → 脉冲编码 → 多层脉冲Transformer（空间注意力+时间注意力交替） → 分类输出。

交叉熵损失 + 脉冲稀疏性正则化，SGD优化，4时间步。

数据集	架构	T	本文	前SOTA	提升
CIFAR-10	ResNet-19	4	96.8%	96.5%	+0.3%
CIFAR-100	ResNet-19	4	81.5%	80.1%	+1.4%
ImageNet	ResNet-34	4	69.8%	67.7%	+2.1%