NeuroBridge: Bio-Inspired Self-Supervised EEG-to-Image Decoding via Cognitive Priors and Bidirectional Semantic Alignment¶
会议: AAAI 2026
arXiv: 2511.06836
作者: Wenjiang Zhang, Sifeng Wang, Yuwei Su, Xinyu Li, Chen Zhang, Suyu Zhong
代码: GitHub
领域: self_supervised
关键词: EEG解码, 跨模态对比学习, 认知先验增强, 共享语义投影, 零样本检索, 脑机接口
一句话总结¶
提出NeuroBridge框架,通过认知先验增强(CPA,非对称增广模拟感知变异性)和共享语义投影器(SSP,双向对齐到统一语义空间),在THINGS-EEG数据集200类零样本EEG-图像检索任务上达到63.2% Top-1(+12.3%)和89.9% Top-5(+10.2%),大幅超越现有SOTA。
研究背景与动机¶
问题背景¶
视觉神经解码旨在从脑活动重建或推断感知到的视觉刺激,在脑机接口和AI领域有重要应用。EEG因高时间分辨率、低成本、高便携性成为非侵入式神经成像的重要手段。跨模态对比学习是当前EEG视觉解码的主流范式。
已有工作的不足¶
动态变异性鸿沟:同一被试观看同一图像的EEG响应因注意力波动、心理状态、生理噪声等因素而存在显著变异——不同人关注同一张猫图片的不同语义区域,产生差异化的EEG响应
静态固有鸿沟:EEG是时序、低维、含噪信号,图像是空间结构化的高维语义密集数据,模态差异根本性存在
单向对齐局限:已有方法(如NICE、ATM)多采用单向对齐策略,将EEG对齐到冻结的CLIP空间,但CLIP的语义空间由视觉-语言数据塑造,与EEG反映的感知/认知过程存在语义不匹配
增广策略不足:UBP仅在视觉侧引入模糊先验,Neural-MCRL仅在EEG侧做语义补全,缺乏综合性双模态增强框架
数据稀缺:EEG配对数据规模远小于视觉-语言领域的大规模数据集
核心动机¶
受生物系统的感知变异性(Perceptual Variability)和协同适应策略(Co-adaptive Strategy)启发:用非对称增广模拟人类认知变异,用双向投影实现EEG和图像在统一语义空间的协同对齐。
方法详解¶
整体框架¶
训练阶段:配对EEG-图像数据 → CPA认知先验增广 → 编码(冻结CLIP图像编码器 + 可训练EEG编码器)→ SSP投影到共享语义空间 → 双向对比损失优化。推理阶段:EEG嵌入通过余弦相似度在视觉概念池中检索匹配图像。
模块1:认知先验增强(CPA)¶
CPA模拟人类视觉感知过程中的认知变异性,核心设计是非对称增广策略:
- 图像侧:应用K种增广策略(高斯模糊、高斯噪声、低分辨率、马赛克),生成多视图 \(X'_{I,k} = t_{I,k}(X_I)\),编码后取平均 \(H_I = \frac{1}{K}\sum_{k=1}^{K} H_{I,k}\) 获得语义聚合表征
- EEG侧:仅用单一增广(平滑处理) \(X'_E = t_E(X_E)\)
- 非对称设计动机:CLIP图像编码器预训练充分,多增广可充分挖掘其能力;EEG编码器从头训练,过多增广反而损坏信号结构
关于增广选择的发现:高斯模糊/噪声/低分辨率/马赛克有效,因保留高层语义同时削弱低层像素变化;颜色抖动和灰度化效果消极,表明人类感知对颜色信息敏感(符合神经科学研究);随机裁剪可能移除关键语义区域。EEG侧仅平滑处理有效,因EEG信噪比低,平滑可降噪;时间偏移会扰乱时序动态。
模块2:共享语义投影器(SSP)¶
SSP将两个模态的特征映射到统一的可训练语义空间:
其中 \(p_I\) 和 \(p_E\) 是两个投影网络(默认512维线性投影效果最优)。关键区别:\(p_I\) 也是可训练的(而非固定不变),实现双向对齐而非单向将EEG对齐到CLIP空间。这种共享空间学习比直接利用CLIP固定空间更灵活。
模块3:模态感知对比学习¶
采用双向InfoNCE损失,关键设计是非对称归一化:仅对图像特征做 \(\ell_2\) 归一化到单位超球面,EEG特征幅度保持自由。这样利用特征方向做语义对齐,幅度作为可学习的置信度。实验表明(Table 7)这种非对称策略(Asym: 63.2%)显著优于对称归一化(Sym: 46.4%)和无归一化(Plain: 54.4%)。
训练细节¶
- 数据集:THINGS-EEG(10个被试,RSVP范式,训练集1654概念×10图×4重复=16540样本/被试,测试集200概念×1图×80重复)
- 默认配置:RN50图像编码器 + EEGProject脑电编码器(2.44M参数),batch=1024,epoch=50,lr=1e-4,τ=0.07
- Intra-subject用17个顶枕区电极(P7/P5/P3/P1/Pz/P2/P4/P6/P8/PO7/PO3/POz/PO4/PO8/O1/Oz/O2),Inter-subject用全部63通道+TSConv编码器
实验关键数据¶
表1:THINGS-EEG 200类零样本检索主实验(Intra-Subject平均)¶
| 方法 | Top-1 (%) | Top-5 (%) |
|---|---|---|
| BraVL | 5.8 | 17.5 |
| NICE | 16.1 | 43.6 |
| ATM | 27.1 | 58.1 |
| CognitionCapturer | 33.3 | 60.6 |
| Neural-MCRL | 32.4 | 64.1 |
| VE-SDN | 37.2 | 70.0 |
| UBP | 50.9 | 79.7 |
| NeuroBridge | 63.2 | 89.9 |
NeuroBridge相比前SOTA(UBP)提升+12.3% Top-1和+10.2% Top-5。Sub 10上最高达73.6% Top-1和97.1% Top-5。Inter-subject设定下同样SOTA(19.0% Top-1 vs UBP 12.4%,45.9% Top-5 vs UBP 33.4%)。
表2:消融实验(核心组件贡献)¶
| Image Prior | EEG Prior | SSP | Top-1 (%) | Top-5 (%) |
|---|---|---|---|---|
| ✗ | ✗ | ✗ | 40.5 | 72.2 |
| ✓ | ✗ | ✗ | 60.0 | 89.1 |
| ✗ | ✓ | ✗ | 40.8 | 72.7 |
| ✗ | ✗ | ✓ | 41.5 | 73.5 |
| ✓ | ✗ | ✓ | 62.1 | 89.8 |
| ✓ | ✓ | ✗ | 60.8 | 89.8 |
| ✓ | ✓ | ✓ | 63.2 | 89.9 |
Image Prior贡献最大(+19.5% Top-1),是性能飞跃的关键;EEG Prior和SSP各自带来约1%的增益;三者组合达到最优。
补充实验¶
- 融合变换数量:从1到4个图像增广融合效果递增(50.9%→62.1%),5个以上开始下降(58.5%),4个是最优平衡点
- 投影器设计:512维线性投影最优,MLP和更高维度反而过拟合
- 归一化策略:非对称归一化(仅归一化图像)63.2%,对称归一化46.4%,无归一化54.4%,反向非对称(仅归一化EEG)38.6%
- Batch Size:1024最优(63.2%),比32提升+8.6%,2048略降至62.2%
- 温度参数:τ=0.5时最优(63.6%),NeuroBridge对温度变化比标准对比学习更鲁棒
- THINGS-MEG验证:在MEG数据上同样SOTA,Intra-subject 32.2% Top-1 vs UBP 26.7%,Inter-subject 3.4% vs UBP 2.2%
- 编码器通用性:在所有图像编码器(RN50到ViT-bigG-14)和EEG编码器(EEGNet/TSConv/ATM/EEGProject)组合上均带来一致提升
亮点¶
- 生物启发的非对称增广:直接模拟人类感知变异性,图像多视图模拟不同注意力聚焦,EEG轻增广保留时序动态,有明确认知科学依据
- 双向对齐突破:SSP打破了将EEG强行对齐到CLIP固定空间的惯例,学习新的共享空间更灵活
- 非对称归一化洞察:仅归一化图像特征让EEG幅度编码置信度,简单但关键(+16.8% vs对称归一化)
- 大幅度SOTA提升:在竞争激烈的THINGS-EEG基准上Top-1提升12.3%,且在所有10个被试上均优于前SOTA
- 编码器通用性:框架可插拔不同图像/EEG编码器组合,均带来一致提升
- 代码开源:完整代码公开可复现
局限与展望¶
- 手工设计增广:CPA的增广策略(高斯模糊、低分辨率等)是人工选定的,可能不足以完整捕获认知变异性,自适应/可学习增广是未来方向
- 依赖预训练视觉编码器:冻结的CLIP编码器可能引入视觉-语言偏差,EEG反映的语义与语言驱动的语义可能存在本质差异
- 仅限零样本检索任务:未验证在图像生成/重建等更具挑战性的解码任务上的效果
- 数据规模受限:仅在THINGS-EEG(1654概念)和THINGS-MEG上验证,更大规模数据集上的表现未知
- EEG增广贡献有限:EEG Prior仅提升0.3% Top-1,说明在EEG增广策略上仍有很大探索空间
- 非对称归一化缺乏理论解释:为何允许EEG幅度自由编码置信度有效,文中仅有推测缺乏理论分析
与相关工作的对比¶
- UBP(Wu et al. 2025):当时SOTA,引入模糊先验模拟早期视觉感知,仅在视觉侧增强。NeuroBridge在所有被试上均超越,平均+12.3% Top-1
- Neural-MCRL(Li et al. 2024):引入EEG模态内语义补全,仅在EEG侧增强。NeuroBridge综合双模态,+30.8% Top-1
- VE-SDN(Chen et al. 2024):视觉增强解码网络,37.2% → 63.2%,+26.0% Top-1
- CognitionCapturer(Zhang et al. 2025):认知捕获方法,33.3% → 63.2%,+29.9% Top-1
- NICE(Song et al. 2024):TSConv编码器+简单对比学习基线,16.1% → 63.2%
- CLIP/ALIGN/BLIP等:大规模视觉-语言预训练依靠海量配对数据成功,但EEG-图像缺乏此量级数据,因此需要更强的架构先验(CPA+SSP)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 非对称增广+双向SSP组合设计有创新性,但各模块单独看较为直觉
- 实验充分度: ⭐⭐⭐⭐⭐ — 10个被试全面评估、多编码器验证、详尽消融、THINGS-MEG泛化、超参敏感性分析
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,生物启发叙事连贯,消融实验设计合理
- 价值: ⭐⭐⭐⭐ — 在EEG视觉解码方向取得显著进展,但增广策略的手工设计限制了方法论深度
相关论文¶
- [AAAI 2026] Self-Supervised Inductive Logic Programming
- [CVPR 2026] Suppressing Non-Semantic Noise in Masked Image Modeling Representations
- [AAAI 2026] Let the Void Be Void: Robust Open-Set Semi-Supervised Learning via Selective Non-Alignment
- [CVPR 2026] Text-Phase Synergy Network with Dual Priors for Unsupervised Cross-Domain Image Retrieval
- [AAAI 2026] Towards LLM-Empowered Knowledge Tracing via LLM-Student Hierarchical Behavior Alignment in Hyperbolic Space