Generalizable, Real-Time Neural Decoding with Hybrid State-Space Models¶
会议: NeurIPS 2025
arXiv: 2506.05320
代码: 有
领域: 医学影像 / 脑机接口 / 神经解码
关键词: 状态空间模型, 脑机接口, 神经解码, 跨物种迁移, 实时推理
一句话总结¶
POSSM 提出了一种混合 SSM-注意力架构,结合 spike 级别 tokenization 和循环状态空间模型骨干,实现了可泛化的实时神经解码,在保持与 Transformer 可比的精度的同时,推理速度提升最高 9 倍。
研究背景与动机¶
神经解码——将神经活动映射到行为或认知变量——是现代神经科学和脑机接口(BCI)的核心。理想的神经解码器需要同时满足三个要求:
准确性:稳健而精确的预测
实时性:因果、低延迟的推理,适合在线场景(≤10ms 延迟)
泛化性:灵活迁移到新的受试者、任务和实验设置
然而现有方法在这三者之间存在根本性矛盾:
| 方法 | 准确性 | 实时性 | 泛化性 |
|---|---|---|---|
| RNN (GRU) | 中 | ✓ 高 | ✗ 差(固定输入格式) |
| Transformer (POYO/NDT-2) | 高 | ✗ 差(\(O(n^2)\) 复杂度) | ✓ 好(灵活 tokenization) |
| POSSM | 高 | ✓ 高 | ✓ 好 |
RNN 快速但因依赖固定大小时间分箱输入而难以跨会话泛化;Transformer(如 POYO)通过灵活的 spike tokenization 实现了强泛化,但二次复杂度使其在实时场景下不可行。POSSM 通过混合架构打破了这一矛盾。
方法详解¶
整体框架¶
POSSM 的架构如图 2 所示,分为三个模块:
- 输入交叉注意力(Input Cross-Attention):继承自 POYO,将可变长度的 spike token 序列压缩为固定大小的潜在表示
- 循环骨干网络(Recurrent Backbone):SSM(或 GRU/Mamba)在时间块间更新隐状态,保留长程上下文
- 输出交叉注意力和读出(Output Cross-Attention & Readout):查询最近 \(k=3\) 个隐状态,生成行为预测
关键: 输入处理仅在 50ms 时间块上操作;循环骨干以流式方式更新隐状态;无需重新处理历史数据。
关键设计¶
Spike Tokenization: 沿用 POYO 的方案,每个 spike 用两个信息表示: - 神经单元身份:可学习的 unit embedding - 发放时间戳:通过 RoPE(旋转位置编码)编码相对时间
这种 tokenization 方式允许处理可变数量的神经元和不同的采样率。
输入交叉注意力: 使用 PerceiverIO 风格的交叉注意力,以可学习查询 \(\mathbf{q} \in \mathbb{R}^{1 \times M}\) 压缩 \(N\) 个 spike token:
循环骨干: 输出 \(\mathbf{z}^{(t)}\) 送入 SSM 更新隐状态:
交叉注意力捕获局部(50ms 内)时间结构,SSM 整合跨块的全局上下文。实验中使用了三种骨干:S4D、GRU 和 Mamba。
泛化策略:两种微调方法: - Unit Identification (UI):冻结模型权重,仅训练新的 unit/session embedding(更新 <1% 参数) - Full Finetuning (FT):先 UI 若干 epoch,再解冻全部参数端到端训练
损失函数 / 训练策略¶
- NHP 运动解码:均方误差(MSE)损失,预测 2D 手部速度时间序列
- 人类手写解码:分类损失,预测意图书写的字符/线条
- 人类语音解码:CTC(连接时序分类)损失,预测音素序列;采用两阶段训练——先重建 spike counts,再训练 CTC 解码
- 训练细节:batch size 128-256,余弦调度器,500 epoch(NHP),LoRA 数据增强(unit dropout)
实验关键数据¶
主实验¶
NHP 运动解码(\(R^2\) 指标,越高越好):
| 方法 | C-CO 2016 (2) | C-CO 2010 (5) | T-CO (6) | T-RT (6) | H-CO (1) |
|---|---|---|---|---|---|
| MLP | 0.921 | 0.695 | 0.798 | 0.701 | 0.418 |
| GRU | 0.938 | 0.731 | 0.819 | 0.717 | 0.693 |
| POYO (SS) | 0.929 | 0.753 | 0.831 | 0.729 | — |
| POSSM-GRU (SS) | 0.944 | 0.738 | 0.836 | 0.738 | 0.690 |
| o-POSSM-S4D (FT) | 0.951 | 0.781 | 0.856 | 0.769 | 0.760 |
人类手写解码(准确率 %):
| 方法 | 准确率 |
|---|---|
| PCA-KNN (基线) | 81.36 ± 7.53 |
| POYO | 94.86 ± 3.53 |
| POSSM-GRU (从头训练) | 95.82 ± 3.41 |
| o-POSSM-S4D (NHP预训练+微调) | 97.73 ± 2.56 |
| o-POSSM-GRU (NHP预训练+微调) | 97.25 ± 2.30 |
人类语音解码(音素错误率 PER %,越低越好):
| 方法 | PER (%) |
|---|---|
| GRU (无噪声) | 39.16 |
| GRU (标准) | 30.06 |
| S4D | 35.99 |
| Mamba | 32.19 |
| POSSM-GRU (无噪声) | 29.70 |
| POSSM-GRU (标准) | 27.32 |
消融实验¶
推理效率对比(图 4c):
| 模型 | 参数量 | GPU 推理时间/块 |
|---|---|---|
| MLP | 最小 | ~0.3ms |
| GRU | 小 | ~0.3ms |
| POSSM-SS | 最小 (0.41-0.68M) | ~0.5ms |
| o-POSSM | ~8M | ~1.5ms |
| POYO | 中等 | ~8ms |
| NDT-2 | 较大 | ~12ms |
POSSM 在 CPU 上也能实现 ~2.44ms/块(单会话)和 ~5.65ms/块(预训练),均在 BCI 实时要求(≤10ms)范围内。
跨物种迁移实验: - 在猴子运动皮层数据上预训练的 o-POSSM,微调后在人类手写任务上准确率提升 2-5% - 这是首次成功的深度学习跨物种神经解码迁移
关键发现¶
- 混合架构最优:POSSM 在所有任务上匹配或超越纯 Transformer(POYO)和纯 RNN,同时推理速度提升最高 9 倍
- 预训练显著有效:o-POSSM 在低数据场景下远优于从头训练的模型,支持高效的跨会话/跨受试者迁移
- 跨物种迁移成功:猴子→人类的迁移学习在手写任务上带来了 ~16% 的准确率提升(相比 PCA-KNN)
- 长序列优势:在人类语音解码等长上下文任务中,Transformer 因二次复杂度受限,而 POSSM 可高效处理 2-18 秒的变长序列
- 噪声鲁棒性:POSSM 在无噪声增强条件下仍保持接近的性能(PER 29.7 vs 27.3),而基线 GRU 性能大幅下降(39.2 vs 30.1)
亮点与洞察¶
- 架构设计优雅:将 Perceiver 的灵活输入处理与 SSM 的高效序列建模有机结合,解决了神经解码的核心矛盾
- 跨物种迁移的开创性意义:证明了猴子和人类的运动皮层神经动力学具有可迁移的共性特征,为稀缺人类数据场景提供了解决方案
- 临床实用性:GPU 和 CPU 上均满足实时 BCI 延迟要求(<10ms),适合部署
- 模块化设计:骨干网络可替换(S4D/GRU/Mamba),适应不同需求
- 全面的实验覆盖:从猴子运动到人类手写、语音,涵盖了神经解码的主要应用场景
局限与展望¶
- 仅限侵入式记录:当前仅验证了皮层内电极阵列数据,未扩展到 EEG 等非侵入式模态
- 离线评估:虽然设计用于实时场景,但所有实验均为离线评估
- 语音解码缺少语言模型:未结合语言模型进行后处理,限制了 PER 的进一步改善
- 仅限运动皮层:未探索其他脑区(如视觉皮层、海马体)的解码
- 跨物种迁移的范围有限:仅验证了猴子→人类在手写任务上的迁移
- 缺少自监督预训练:当前依赖有监督的行为标签,未探索自监督方案
相关工作与启发¶
- POYO:POSSM 的直接基础,提供了 spike tokenization 和 PerceiverIO 编码方案
- NDT-2:使用时空 patch tokenization 的 Transformer 解码器,但计算量大
- Mamba/S4:现代 SSM 架构,POSSM 展示了它们作为骨干的潜力
- BRAND:实时 BCI 部署平台,POSSM 的推理效率使其适合集成
- 启发:混合注意力-循环架构不仅适用于 NLP(Jamba 等),在神经信号处理中也展现出独特优势——局部灵活编码 + 全局高效状态传递
评分¶
- 新颖性: ★★★★★ — 首个混合 SSM-注意力架构用于神经解码,跨物种迁移具有开创性
- 技术深度: ★★★★★ — 架构设计有理论深度,多种骨干的系统对比
- 实验充分度: ★★★★★ — 三类任务、多数据集、推理效率、样本效率、跨物种迁移全面评估
- 实用性: ★★★★★ — 满足实时 BCI 延迟要求,有直接临床价值
- 总体推荐: ★★★★★
相关论文¶
- [NeurIPS 2025] BarcodeMamba+: Advancing State-Space Models for Fungal Biodiversity Research
- [NeurIPS 2025] DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs
- [NeurIPS 2025] Bridging Graph and State-Space Modeling for Intensive Care Unit Length of Stay Prediction
- [NeurIPS 2025] MIRA: Medical Time Series Foundation Model for Real-World Health Data
- [NeurIPS 2025] MoRE-Brain: Routed Mixture of Experts for Interpretable and Generalizable Cross-Subject fMRI Visual Decoding