SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking¶
会议: CVPR 2026 arXiv: 2602.23963 代码: 有(论文中提及) 领域: 视频理解 关键词: 脉冲神经网络, 视觉跟踪, 能效, 非对称架构, 记忆检索
一句话总结¶
提出 SpikeTrack,首个完全符合脉冲驱动范式的 RGB 视觉跟踪框架,通过非对称时间步扩展、单向信息流和脑启发记忆检索模块(MRM),在 SNN 跟踪器中达到 SOTA 并与 ANN 跟踪器持平,同时能耗仅为 TransT 的 1/26。
研究背景与动机¶
脉冲神经网络(SNN)通过模拟生物神经元的时空动态和脉冲机制实现低功耗计算:(i) 仅在事件驱动时触发计算,(ii) 脉冲张量与权重的矩阵乘法可转换为稀疏加法。这使 SNN 在神经形态芯片上具有显著节能优势。
现有 SNN 跟踪方法的问题:
- RGB 类方法(SiamSNN, Spike-SiamFC++):虽然使用脉冲神经元,但将脉冲信号解码为连续值进行计算,未实现完全脉冲驱动处理,能效受限
- 事件相机类方法:直接模仿 ANN 的 one-stream 架构(如 OSTrack),将模板和搜索区域拼接后送入骨干做双向交互。这种方式存在两个缺陷:
- 未充分利用 SNN 神经元的时空关联动态
- 密集的双向交互大幅增加计算开销
核心研究问题:能否设计一个遵循脉冲驱动范式、同时充分利用时空建模能力的 SNN 跟踪器?
方法详解¶
整体框架¶
SpikeTrack 由三个组件构成:共享权重的脉冲骨干、用于单向信息传递的记忆检索模块(MRM)、预测头。推理时,模板分支仅在初始化或模板更新时执行一次,将中间层特征缓存为 memory;搜索分支使用 MRM 从 memory 中检索目标线索并逐步精化目标感知。
关键设计¶
- 非对称 Siamese 骨干:不对称的时间步输入与单向信息流
- 做什么:模板分支在多个时间步 \(T\) 上扩展(每步分配一个模板),通过神经元时空动态联合建模模板表征;搜索分支仅做单时间步高效推理
- 核心思路:信息仅从模板分支流向搜索分支,计算密集的模板分支只在初始化或更新时运行,大幅削减计算量
- 骨干选择:Spike-Driven Transformer V3,由 CNN 块(前两阶段)和 Transformer 块(后两阶段)组成
-
脉冲神经元模型:采用 Normalized Integer LIF(NI-LIF)神经元,训练时用归一化整数激活,推理时转换为等效脉冲。关键改进是将衰减因子 \(\beta_t = \sigma(\theta_t)\) 设为可学习变量,使网络自适应建模时间步间的关联: $\(U[t] = \beta_t H[t-1] + Y[t], \quad S[t] = \text{Clip}(\text{round}(U[t]), 0, D)/D\)$
-
Memory Retrieval Module(MRM):脑启发的记忆检索单向信息传递
- 做什么:从模板分支缓存的 memory 中检索目标线索,增强搜索分支的目标感知
- 灵感来源:神经科学中 V1 L2/3 区域的循环连接在遮挡下通过基于先验期望的迭代精化实现完整感知推理——天然契合基于模板的跟踪
- 核心流程(三阶段循环处理):
- 全局轮廓编码:模板特征 \(F_Z\) 投影为 \(K_S\), \(V_S\),预计算 memory 矩阵 \(M = K_S^T V_S\)(初始化时一次性完成)。搜索特征 \(F_X\) 时序扩展为 \(Q_S^{(0)}\),通过 \(Q_S^{(i)'} = \mathcal{SN}(Q_S^{(i)}M \cdot scale)\) 检索全局信息
- 细节构建:\(T\) 个专用 SSConv 沿时间维度处理每个时间步,提高对时序变化的敏感度
- 反馈精化:残差连接 + 投影模拟向高层视觉区域的反馈
-
利用脉冲注意力的线性复杂度特性,memory 矩阵预计算后跨帧复用
-
预测头:三分支中心点预测
- 做什么:从搜索分支特征预测目标边界框
- 核心思路:三个并行分支分别预测目标中心定位(分类)、分辨率降低引起的局部偏移、归一化边界框宽高,每个分支由多层 Conv-BN-NILIF 构成
- 无单独质量评分模块,直接用定位分支分数作为置信度
损失函数 / 训练策略¶
- 损失函数:\(\mathcal{L} = \mathcal{L}_{class} + \lambda_G \mathcal{L}_{IoU} + \lambda_{L_1} \mathcal{L}_1\),其中 \(\lambda_G=2\), \(\lambda_{L_1}=5\)
- \(\mathcal{L}_{class}\):加权 focal loss,\(\mathcal{L}_{IoU}\):generalized IoU loss,\(\mathcal{L}_1\):L1 回归损失
- 训练数据:COCO + LaSOT + TrackingNet + GOT-10k
- 两阶段训练:\(T=1\) 模型先训 320 epochs(lr backbone 4e-5, head/MRM 4e-4),\(T>1\) 模型从 \(T=1\) 微调 60 epochs
- 模板更新:FIFO 队列,更新间隔 25 帧,置信度阈值 0.7
- 能耗计算:SNN 能耗 \(E_{SNN} = \text{FLOPs} \times E_{AC} \times SFR \times T \times D\),\(E_{AC}=0.9\) pJ(45nm),远低于 \(E_{MAC}=4.6\) pJ
实验关键数据¶
主实验¶
| 数据集 | 指标 | SpikeTrack-B384 | TransT (ANN) | 能耗比 |
|---|---|---|---|---|
| LaSOT | AUC | 66.7 | 64.9 | 27.3 vs 75.2 mJ (1/2.8) |
| TrackingNet | AUC | 82.0 | 81.4 | 27.3 vs 75.2 mJ |
| GOT-10k | AO | 73.1 | 72.3 | 27.3 vs 75.2 mJ |
| TNL2K | AUC | 54.8 | 50.7 | 27.3 vs 75.2 mJ |
SpikeTrack-B256-T3 在 LaSOT 上超越 TransT 2.2% AUC,能耗仅 1/7.6。
| 数据集 | 指标 | SpikeTrack-S256 | SpikeSiamFC++ | 提升 |
|---|---|---|---|---|
| UAV123 | AUC | 66.2 | 57.8 | +8.4 |
| OTB100 | AUC | 69.4 | 64.4 | +5.0 |
| GOT-10k | AO | 67.8 | - | - |
消融实验¶
| 配置 | 能耗(mJ) | GOT-10k AO | LaSOT AUC | 说明 |
|---|---|---|---|---|
| Baseline (非对称) | 8.7 | 71.3 | 66.8 | 基线 |
| One-stream | 22.8 | 70.8 | 65.4 | 能耗↑163%,精度↓ |
| Vanilla Cross-attn | 7.6 | 70.9 | 65.0 | 替代 MRM,精度下降 |
| Modulation (spike) | 6.8 | 58.3 | 49.9 | AsymTrack方式不适合SNN |
| Mean Fusion | 8.5 | 71.0 | 66.2 | 通道加权融合更优 |
| Fixed Decay | 8.9 | 68.9 | 66.0 | 可学习衰减因子更好 |
关键发现¶
- 非对称架构在精度和能耗两方面均优于 one-stream 架构,证明 SNN 时空动态 + MRM 优于暴力双向交互
- AsymTrack 的模板调制方法在脉冲化后严重退化(AUC 49.9),说明用模板作卷积核做信号调制不适合 SNN 的粗粒度表征
- 可学习衰减因子比固定衰减(+1.9 LaSOT AUC)更灵活地控制时间步交互
- 与 OSTrack 的差距主要在 Deformation 和 Fast Motion 场景,这对 SNN 的深层语义理解和重检测能力挑战最大
- MRM 循环次数 \(N=1\) 最优,过多循环导致累积误差和过度聚焦
亮点与洞察¶
- 非对称设计的精妙:模板分支多时间步利用 SNN 时空动态,搜索分支单时间步高效推理——将 SNN 的时空建模优势与 Siamese 架构的效率结合
- 脑启发 MRM:从 V1 视觉皮层的循环连接获得启发,预计算 memory 矩阵实现跨帧复用,兼顾生物合理性与工程效率
- 首次在 RGB 跟踪中实现能效-精度帕累托最优——超越同精度 ANN 同时能耗降低数个数量级
- 6个模型变体覆盖不同精度-功耗需求,体现良好的可扩展性
局限性 / 可改进方向¶
- 在相似目标干扰场景下表现较弱——脉冲编码难以传递细粒度语义信息用于区分相似目标
- 模板更新使用简单的置信度阈值策略,缺乏专用质量评分模块
- 长期跟踪(LaSOT)中 \(T\) 增加不一定提升性能,因为简单评分机制会引入低质量模板
- 当前仅在 45nm 工艺下理论计算能耗,未在实际神经形态芯片上测试
相关工作与启发¶
- 继承 AsymTrack(CVPR'25)的非对称 Siamese 思想,但用 SNN 时空动态替代 ANN 的模板调制
- 骨干使用 Spike-Driven Transformer V3,属于 Meta-Transformer 风格的 SNN
- MRM 的 memory 预计算思路与 Transformer 的 KV-cache 有异曲同工之妙
- 为 SNN 在更广泛视频理解任务(如 MOT、视频分割)的应用提供了重要参考
评分¶
- 新颖性: ⭐⭐⭐⭐ 非对称脉冲跟踪 + 脑启发 MRM 设计新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 7个基准、6个变体、详尽消融与能耗分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,与神经科学对应关系阐述良好
- 价值: ⭐⭐⭐⭐ 推动 SNN 在视觉跟踪中的实用化进程
- 价值: 待评