跳转至

Generalizable, Real-Time Neural Decoding with Hybrid State-Space Models

会议: NeurIPS 2025
arXiv: 2506.05320
代码: 有
领域: 医学影像 / 脑机接口 / 神经解码
关键词: 状态空间模型, 脑机接口, 神经解码, 跨物种迁移, 实时推理

一句话总结

POSSM 提出了一种混合 SSM-注意力架构,结合 spike 级别 tokenization 和循环状态空间模型骨干,实现了可泛化的实时神经解码,在保持与 Transformer 可比的精度的同时,推理速度提升最高 9 倍。

研究背景与动机

神经解码——将神经活动映射到行为或认知变量——是现代神经科学和脑机接口(BCI)的核心。理想的神经解码器需要同时满足三个要求:

准确性:稳健而精确的预测

实时性:因果、低延迟的推理,适合在线场景(≤10ms 延迟)

泛化性:灵活迁移到新的受试者、任务和实验设置

然而现有方法在这三者之间存在根本性矛盾:

方法 准确性 实时性 泛化性
RNN (GRU) ✓ 高 ✗ 差(固定输入格式)
Transformer (POYO/NDT-2) ✗ 差(\(O(n^2)\) 复杂度) ✓ 好(灵活 tokenization)
POSSM ✓ 高 ✓ 好

RNN 快速但因依赖固定大小时间分箱输入而难以跨会话泛化;Transformer(如 POYO)通过灵活的 spike tokenization 实现了强泛化,但二次复杂度使其在实时场景下不可行。POSSM 通过混合架构打破了这一矛盾。

方法详解

整体框架

POSSM 的架构如图 2 所示,分为三个模块:

  1. 输入交叉注意力(Input Cross-Attention):继承自 POYO,将可变长度的 spike token 序列压缩为固定大小的潜在表示
  2. 循环骨干网络(Recurrent Backbone):SSM(或 GRU/Mamba)在时间块间更新隐状态,保留长程上下文
  3. 输出交叉注意力和读出(Output Cross-Attention & Readout):查询最近 \(k=3\) 个隐状态,生成行为预测

关键: 输入处理仅在 50ms 时间块上操作;循环骨干以流式方式更新隐状态;无需重新处理历史数据。

关键设计

Spike Tokenization: 沿用 POYO 的方案,每个 spike 用两个信息表示: - 神经单元身份:可学习的 unit embedding - 发放时间戳:通过 RoPE(旋转位置编码)编码相对时间

\[\mathbf{x} = (\text{UnitEmb}(i), t_{\text{spike}})\]

这种 tokenization 方式允许处理可变数量的神经元和不同的采样率。

输入交叉注意力: 使用 PerceiverIO 风格的交叉注意力,以可学习查询 \(\mathbf{q} \in \mathbb{R}^{1 \times M}\) 压缩 \(N\) 个 spike token:

\[\mathbf{z}^{(t)} = \text{softmax}\left(\frac{\mathbf{q}\mathbf{K}_t^\top}{\sqrt{d_k}}\right)\mathbf{V}_t\]

循环骨干: 输出 \(\mathbf{z}^{(t)}\) 送入 SSM 更新隐状态:

\[\mathbf{h}^{(t)} = f_{\text{SSM}}(\mathbf{z}^{(t)}, \mathbf{h}^{(t-1)})\]

交叉注意力捕获局部(50ms 内)时间结构,SSM 整合跨块的全局上下文。实验中使用了三种骨干:S4D、GRU 和 Mamba。

泛化策略:两种微调方法: - Unit Identification (UI):冻结模型权重,仅训练新的 unit/session embedding(更新 <1% 参数) - Full Finetuning (FT):先 UI 若干 epoch,再解冻全部参数端到端训练

损失函数 / 训练策略

  • NHP 运动解码:均方误差(MSE)损失,预测 2D 手部速度时间序列
  • 人类手写解码:分类损失,预测意图书写的字符/线条
  • 人类语音解码:CTC(连接时序分类)损失,预测音素序列;采用两阶段训练——先重建 spike counts,再训练 CTC 解码
  • 训练细节:batch size 128-256,余弦调度器,500 epoch(NHP),LoRA 数据增强(unit dropout)

实验关键数据

主实验

NHP 运动解码\(R^2\) 指标,越高越好):

方法 C-CO 2016 (2) C-CO 2010 (5) T-CO (6) T-RT (6) H-CO (1)
MLP 0.921 0.695 0.798 0.701 0.418
GRU 0.938 0.731 0.819 0.717 0.693
POYO (SS) 0.929 0.753 0.831 0.729
POSSM-GRU (SS) 0.944 0.738 0.836 0.738 0.690
o-POSSM-S4D (FT) 0.951 0.781 0.856 0.769 0.760

人类手写解码(准确率 %):

方法 准确率
PCA-KNN (基线) 81.36 ± 7.53
POYO 94.86 ± 3.53
POSSM-GRU (从头训练) 95.82 ± 3.41
o-POSSM-S4D (NHP预训练+微调) 97.73 ± 2.56
o-POSSM-GRU (NHP预训练+微调) 97.25 ± 2.30

人类语音解码(音素错误率 PER %,越低越好):

方法 PER (%)
GRU (无噪声) 39.16
GRU (标准) 30.06
S4D 35.99
Mamba 32.19
POSSM-GRU (无噪声) 29.70
POSSM-GRU (标准) 27.32

消融实验

推理效率对比(图 4c):

模型 参数量 GPU 推理时间/块
MLP 最小 ~0.3ms
GRU ~0.3ms
POSSM-SS 最小 (0.41-0.68M) ~0.5ms
o-POSSM ~8M ~1.5ms
POYO 中等 ~8ms
NDT-2 较大 ~12ms

POSSM 在 CPU 上也能实现 ~2.44ms/块(单会话)和 ~5.65ms/块(预训练),均在 BCI 实时要求(≤10ms)范围内。

跨物种迁移实验: - 在猴子运动皮层数据上预训练的 o-POSSM,微调后在人类手写任务上准确率提升 2-5% - 这是首次成功的深度学习跨物种神经解码迁移

关键发现

  1. 混合架构最优:POSSM 在所有任务上匹配或超越纯 Transformer(POYO)和纯 RNN,同时推理速度提升最高 9 倍
  2. 预训练显著有效:o-POSSM 在低数据场景下远优于从头训练的模型,支持高效的跨会话/跨受试者迁移
  3. 跨物种迁移成功:猴子→人类的迁移学习在手写任务上带来了 ~16% 的准确率提升(相比 PCA-KNN)
  4. 长序列优势:在人类语音解码等长上下文任务中,Transformer 因二次复杂度受限,而 POSSM 可高效处理 2-18 秒的变长序列
  5. 噪声鲁棒性:POSSM 在无噪声增强条件下仍保持接近的性能(PER 29.7 vs 27.3),而基线 GRU 性能大幅下降(39.2 vs 30.1)

亮点与洞察

  1. 架构设计优雅:将 Perceiver 的灵活输入处理与 SSM 的高效序列建模有机结合,解决了神经解码的核心矛盾
  2. 跨物种迁移的开创性意义:证明了猴子和人类的运动皮层神经动力学具有可迁移的共性特征,为稀缺人类数据场景提供了解决方案
  3. 临床实用性:GPU 和 CPU 上均满足实时 BCI 延迟要求(<10ms),适合部署
  4. 模块化设计:骨干网络可替换(S4D/GRU/Mamba),适应不同需求
  5. 全面的实验覆盖:从猴子运动到人类手写、语音,涵盖了神经解码的主要应用场景

局限与展望

  1. 仅限侵入式记录:当前仅验证了皮层内电极阵列数据,未扩展到 EEG 等非侵入式模态
  2. 离线评估:虽然设计用于实时场景,但所有实验均为离线评估
  3. 语音解码缺少语言模型:未结合语言模型进行后处理,限制了 PER 的进一步改善
  4. 仅限运动皮层:未探索其他脑区(如视觉皮层、海马体)的解码
  5. 跨物种迁移的范围有限:仅验证了猴子→人类在手写任务上的迁移
  6. 缺少自监督预训练:当前依赖有监督的行为标签,未探索自监督方案

相关工作与启发

  • POYO:POSSM 的直接基础,提供了 spike tokenization 和 PerceiverIO 编码方案
  • NDT-2:使用时空 patch tokenization 的 Transformer 解码器,但计算量大
  • Mamba/S4:现代 SSM 架构,POSSM 展示了它们作为骨干的潜力
  • BRAND:实时 BCI 部署平台,POSSM 的推理效率使其适合集成
  • 启发:混合注意力-循环架构不仅适用于 NLP(Jamba 等),在神经信号处理中也展现出独特优势——局部灵活编码 + 全局高效状态传递

评分

  • 新颖性: ★★★★★ — 首个混合 SSM-注意力架构用于神经解码,跨物种迁移具有开创性
  • 技术深度: ★★★★★ — 架构设计有理论深度,多种骨干的系统对比
  • 实验充分度: ★★★★★ — 三类任务、多数据集、推理效率、样本效率、跨物种迁移全面评估
  • 实用性: ★★★★★ — 满足实时 BCI 延迟要求,有直接临床价值
  • 总体推荐: ★★★★★

相关论文