Generalizable, Real-Time Neural Decoding with Hybrid State-Space Models¶

会议: NeurIPS 2025
arXiv: 2506.05320
代码: 有
领域: 医学影像 / 脑机接口 / 神经解码
关键词: 状态空间模型, 脑机接口, 神经解码, 跨物种迁移, 实时推理

一句话总结¶

POSSM 提出了一种混合 SSM-注意力架构，结合 spike 级别 tokenization 和循环状态空间模型骨干，实现了可泛化的实时神经解码，在保持与 Transformer 可比的精度的同时，推理速度提升最高 9 倍。

研究背景与动机¶

神经解码——将神经活动映射到行为或认知变量——是现代神经科学和脑机接口（BCI）的核心。理想的神经解码器需要同时满足三个要求：

准确性：稳健而精确的预测

实时性：因果、低延迟的推理，适合在线场景（≤10ms 延迟）

泛化性：灵活迁移到新的受试者、任务和实验设置

然而现有方法在这三者之间存在根本性矛盾：

方法	准确性	实时性	泛化性
RNN (GRU)	中	✓ 高	✗ 差（固定输入格式）
Transformer (POYO/NDT-2)	高	✗ 差（\(O(n^2)\) 复杂度）	✓ 好（灵活 tokenization）
POSSM	高	✓ 高	✓ 好

RNN 快速但因依赖固定大小时间分箱输入而难以跨会话泛化；Transformer（如 POYO）通过灵活的 spike tokenization 实现了强泛化，但二次复杂度使其在实时场景下不可行。POSSM 通过混合架构打破了这一矛盾。

方法详解¶

整体框架¶

POSSM 的架构如图 2 所示，分为三个模块：

输入交叉注意力（Input Cross-Attention）：继承自 POYO，将可变长度的 spike token 序列压缩为固定大小的潜在表示
循环骨干网络（Recurrent Backbone）：SSM（或 GRU/Mamba）在时间块间更新隐状态，保留长程上下文
输出交叉注意力和读出（Output Cross-Attention & Readout）：查询最近 \(k=3\) 个隐状态，生成行为预测

关键： 输入处理仅在 50ms 时间块上操作；循环骨干以流式方式更新隐状态；无需重新处理历史数据。

关键设计¶

Spike Tokenization：沿用 POYO 的方案，每个 spike 用两个信息表示： - 神经单元身份：可学习的 unit embedding - 发放时间戳：通过 RoPE（旋转位置编码）编码相对时间

\[\mathbf{x} = (\text{UnitEmb}(i), t_{\text{spike}})\]

这种 tokenization 方式允许处理可变数量的神经元和不同的采样率。

输入交叉注意力：使用 PerceiverIO 风格的交叉注意力，以可学习查询 \(\mathbf{q} \in \mathbb{R}^{1 \times M}\) 压缩 \(N\) 个 spike token：

\[\mathbf{z}^{(t)} = \text{softmax}\left(\frac{\mathbf{q}\mathbf{K}_t^\top}{\sqrt{d_k}}\right)\mathbf{V}_t\]

循环骨干：输出 \(\mathbf{z}^{(t)}\) 送入 SSM 更新隐状态：

\[\mathbf{h}^{(t)} = f_{\text{SSM}}(\mathbf{z}^{(t)}, \mathbf{h}^{(t-1)})\]

交叉注意力捕获局部（50ms 内）时间结构，SSM 整合跨块的全局上下文。实验中使用了三种骨干：S4D、GRU 和 Mamba。

泛化策略：两种微调方法： - Unit Identification (UI)：冻结模型权重，仅训练新的 unit/session embedding（更新 <1% 参数） - Full Finetuning (FT)：先 UI 若干 epoch，再解冻全部参数端到端训练

损失函数 / 训练策略¶

NHP 运动解码：均方误差（MSE）损失，预测 2D 手部速度时间序列
人类手写解码：分类损失，预测意图书写的字符/线条
人类语音解码：CTC（连接时序分类）损失，预测音素序列；采用两阶段训练——先重建 spike counts，再训练 CTC 解码
训练细节：batch size 128-256，余弦调度器，500 epoch（NHP），LoRA 数据增强（unit dropout）

实验关键数据¶

主实验¶

NHP 运动解码（\(R^2\) 指标，越高越好）：

方法	C-CO 2016 (2)	C-CO 2010 (5)	T-CO (6)	T-RT (6)	H-CO (1)
MLP	0.921	0.695	0.798	0.701	0.418
GRU	0.938	0.731	0.819	0.717	0.693
POYO (SS)	0.929	0.753	0.831	0.729	—
POSSM-GRU (SS)	0.944	0.738	0.836	0.738	0.690
o-POSSM-S4D (FT)	0.951	0.781	0.856	0.769	0.760

人类手写解码（准确率 %）：

方法	准确率
PCA-KNN (基线)	81.36 ± 7.53
POYO	94.86 ± 3.53
POSSM-GRU (从头训练)	95.82 ± 3.41
o-POSSM-S4D (NHP预训练+微调)	97.73 ± 2.56
o-POSSM-GRU (NHP预训练+微调)	97.25 ± 2.30

人类语音解码（音素错误率 PER %，越低越好）：

方法	PER (%)
GRU (无噪声)	39.16
GRU (标准)	30.06
S4D	35.99
Mamba	32.19
POSSM-GRU (无噪声)	29.70
POSSM-GRU (标准)	27.32

消融实验¶

推理效率对比（图 4c）：

模型	参数量	GPU 推理时间/块
MLP	最小	~0.3ms
GRU	小	~0.3ms
POSSM-SS	最小 (0.41-0.68M)	~0.5ms
o-POSSM	~8M	~1.5ms
POYO	中等	~8ms
NDT-2	较大	~12ms

POSSM 在 CPU 上也能实现 ~2.44ms/块（单会话）和 ~5.65ms/块（预训练），均在 BCI 实时要求（≤10ms）范围内。

跨物种迁移实验： - 在猴子运动皮层数据上预训练的 o-POSSM，微调后在人类手写任务上准确率提升 2-5% - 这是首次成功的深度学习跨物种神经解码迁移

关键发现¶

混合架构最优：POSSM 在所有任务上匹配或超越纯 Transformer（POYO）和纯 RNN，同时推理速度提升最高 9 倍
预训练显著有效：o-POSSM 在低数据场景下远优于从头训练的模型，支持高效的跨会话/跨受试者迁移
跨物种迁移成功：猴子→人类的迁移学习在手写任务上带来了 ~16% 的准确率提升（相比 PCA-KNN）
长序列优势：在人类语音解码等长上下文任务中，Transformer 因二次复杂度受限，而 POSSM 可高效处理 2-18 秒的变长序列
噪声鲁棒性：POSSM 在无噪声增强条件下仍保持接近的性能（PER 29.7 vs 27.3），而基线 GRU 性能大幅下降（39.2 vs 30.1）

亮点与洞察¶

架构设计优雅：将 Perceiver 的灵活输入处理与 SSM 的高效序列建模有机结合，解决了神经解码的核心矛盾
跨物种迁移的开创性意义：证明了猴子和人类的运动皮层神经动力学具有可迁移的共性特征，为稀缺人类数据场景提供了解决方案
临床实用性：GPU 和 CPU 上均满足实时 BCI 延迟要求（<10ms），适合部署
模块化设计：骨干网络可替换（S4D/GRU/Mamba），适应不同需求
全面的实验覆盖：从猴子运动到人类手写、语音，涵盖了神经解码的主要应用场景

局限与展望¶

仅限侵入式记录：当前仅验证了皮层内电极阵列数据，未扩展到 EEG 等非侵入式模态
离线评估：虽然设计用于实时场景，但所有实验均为离线评估
语音解码缺少语言模型：未结合语言模型进行后处理，限制了 PER 的进一步改善
仅限运动皮层：未探索其他脑区（如视觉皮层、海马体）的解码
跨物种迁移的范围有限：仅验证了猴子→人类在手写任务上的迁移
缺少自监督预训练：当前依赖有监督的行为标签，未探索自监督方案

评分¶

新颖性: ★★★★★ — 首个混合 SSM-注意力架构用于神经解码，跨物种迁移具有开创性
技术深度: ★★★★★ — 架构设计有理论深度，多种骨干的系统对比
实验充分度: ★★★★★ — 三类任务、多数据集、推理效率、样本效率、跨物种迁移全面评估
实用性: ★★★★★ — 满足实时 BCI 延迟要求，有直接临床价值
总体推荐: ★★★★★