跳转至

CognitionCapturerPro: Towards High-Fidelity Visual Decoding from EEG/MEG via Multi-modal Information and Asymmetric Alignment

会议: CVPR 2026
arXiv: 2603.12722
代码: 待公开
领域: 图像生成 / 脑信号解码
关键词: EEG视觉解码, 多模态融合, 不确定性建模, 脑机接口, 扩散模型重建

一句话总结

CognitionCapturerPro通过不确定性加权掩蔽解决保真度损失、多模态融合编码器整合图像/文本/深度/边缘信息解决表征偏移,配合轻量共享主干对齐替代扩散先验,在THINGS-EEG数据集上Top-1/Top-5检索准确率分别提升25.9%和10.6%。

研究背景与动机

领域现状:从EEG信号解码视觉刺激是脑机接口的重要方向。主流方法将EEG嵌入与CLIP空间对齐来实现检索和重建。EEG因其便携性和毫秒级时间分辨率成为最有潜力的实用化模态。

现有痛点:神经科学研究揭示了两大核心瓶颈——(1) 保真度损失(Fidelity Loss):视觉系统将刺激转为神经信号时,注意力机制导致信息不完整(如只关注自行车轮子而非整车);(2) 表征偏移(Representational Shift):大脑的联想机制引入非视觉语义(如看到企鹅联想到南极),使神经信号偏离视觉特征。现有方法要么只处理语义对齐忽略保真度损失,要么仅在视觉框架内建模不确定性忽略语义联想。

核心矛盾:EEG信号与视觉刺激之间存在系统性错配,这种错配来自两个独立机制(信息丢失 + 主观偏差),必须同时解决才能实现高保真解码。

本文目标 在有限的神经数据条件下,如何同时克服保真度损失和表征偏移,实现准确的脑信号到图像的检索和重建。

切入角度:作者从会议版CognitionCapturer的多模态扩展策略出发,新增不确定性加权机制解决保真度损失,并用更轻量的MLP对齐替代扩散先验降低过拟合风险。

核心 idea:用不确定性驱动的动态掩蔽模拟人类凹视觉来解决保真度损失,用多模态融合+共享主干对齐来解决表征偏移。

方法详解

整体框架

框架包含五个核心组件:(1) 不确定性加权掩蔽(UM)模拟凹视觉;(2) 四个模态专用编码器将EEG映射到图像/文本/深度/边缘嵌入空间;(3) 融合编码器通过跨模态Transformer整合所有嵌入;(4) 共享主干+模态头对齐(STH-Align)将嵌入映射到统一图像空间;(5) SDXL-Turbo + IP-Adapter生成高保真重建图像。

关键设计

  1. 不确定性加权掩蔽(Uncertainty-Weighted Masking):

    • 功能:动态调整训练样本的图像模糊强度,模拟人类凹视觉机制
    • 核心思路:首先对图像施加仿凹视觉的空间渐变模糊——中心清晰边缘模糊,模糊核 \(\mathbf{M}_{\text{fovea}}(i,j)\) 从中心到边缘指数衰减。然后根据模型当前对齐水平动态调节模糊强度:利用EMA平滑的历史相似度分数建立置信区间,"简单"样本(高相似度)增加模糊防止过拟合,"困难"样本(低相似度)减少模糊促进关键特征学习
    • 设计动机:直接对齐假设神经信号完整表示了刺激,忽略了人类注意力的选择性和局部性。UM通过模拟信息丢失过程来缩小模态间的系统性差距
  2. 多模态融合编码器(Fusion Encoder):

    • 功能:将四个模态专用EEG嵌入整合为统一表示
    • 核心思路:四个嵌入经线性投影对齐到共享维度 \(d=1024\),加上可学习模态位置编码后输入两层Transformer编码器,通过多头自注意力实现跨模态交互。全局平均池化+残差MLP输出融合嵌入 \(\mathbf{z}_{\text{fus}}\)。训练时随机置零一个模态(Modality Masking)增强鲁棒性
    • 设计动机:不同模态提供互补信息——图像捕获语义、文本编码联想、深度反映3D结构、边缘保留轮廓。融合而非简单拼接能让模态间相互增强
  3. 共享主干与模态头对齐(STH-Align):

    • 功能:替代扩散先验,用轻量MLP将多模态嵌入对齐到图像嵌入空间
    • 核心思路:将四个EEG嵌入拼接后送入4层SiLU-MLP共享主干得到公共表示 \(\mathbf{f}\),再通过四个2层MLP模态头输出 \(\hat{\mathbf{e}}^m\),优化MSE + 余弦 + 正则三部分损失 \(\mathcal{L}_{\text{STH}} = \sum_m [\lambda_{\text{mse}}\|\hat{\mathbf{e}}^m - \mathbf{v}^m\|_2^2 + \lambda_{\text{cos}}(1-\cos(\hat{\mathbf{e}}^m, \mathbf{v}^m)) + \lambda_{\text{reg}}\|\hat{\mathbf{e}}^m\|_2^2]\)
    • 设计动机:扩散先验需要大规模数据,在仅数万EEG-图像对的条件下容易过拟合且推理昂贵。轻量MLP对齐在小数据上更稳定

损失函数 / 训练策略

编码器阶段使用SCM-Loss(相似度-类别掩蔽对比损失):构建相似度矩阵后,仅将同类别且top-k相似的样本作为正对,解决EEG数据集固有的一对多映射冲突。STH-Align单独训练,使用MSE+余弦+正则三部分损失。重建阶段使用3个IP-Adapter分支(图像/深度/边缘)注入SDXL-Turbo。

实验关键数据

主实验

THINGS-EEG零样本检索(10个被试平均):

方法 Top-1 Top-5
BraVL 5.8 17.5
NICE 14.1 43.6
MB2C 28.4 60.3
CognitionCapturer 35.6 80.2
ATS 60.2 86.7
CogCapPro(F) 61.2 90.8

CogCapPro(F)融合模式达到最优,对比会议版CognitionCapturer提升25.6%/10.6%。

消融实验

模态配置 Top-1 Top-5 说明
CogCapPro(I) 52.7 83.5 仅图像模态
CogCapPro(T) 14.2 38.6 仅文本模态
CogCapPro(D) 17.5 44.3 仅深度模态
CogCapPro(E) 29.9 64.4 仅边缘模态
CogCapPro(F) 61.2 90.8 全模态融合

关键发现

  • 多模态融合比最佳单模态(图像)高出8.5%/7.3%,证明多模态互补信息的价值
  • 图像模态贡献最大,边缘次之,文本最弱——符合EEG信号主要编码视觉而非语言信息的认知科学预期
  • 不确定性加权掩蔽对"困难"被试(如Subject 5的Top-1仅45.2%)改善最显著
  • 在THINGS-MEG数据集上同样有效,验证跨脑信号模态的泛化性

亮点与洞察

  • 不确定性驱动的课程学习思路:根据模型当前对齐水平动态调整训练难度,本质上是自适应课程学习。这种"对齐水平反馈到数据增强"的闭环设计可迁移到任何跨模态对齐任务。
  • SCM-Loss解决一对多映射:EEG数据集中同类不同样本在InfoNCE中互相拉扯产生矛盾梯度,SCM通过语义标签+相似度双重过滤的正对选择,巧妙化解了这个根本性训练问题。
  • 轻量对齐替代扩散先验:在小数据场景下MLP对齐优于扩散先验,这对整个脑解码社区是个实用启示——不必盲目追求复杂架构。

局限与展望

  • THINGS-EEG数据集被试较少(10人),个体差异大(Subject 5 vs Subject 8差距28%)
  • EEG空间分辨率低,重建的图像在高频细节上仍有明显模糊
  • 多模态标注(文本/深度/边缘)在部署时需额外计算,实时BCI场景的延迟未讨论
  • 未探索端到端训练(当前编码器和对齐分开训练)

相关工作与启发

  • vs CognitionCapturer(会议版): 会议版没有显式处理保真度损失,且用扩散先验对齐。Pro版新增UM解决保真度问题、用更简单的STH-Align替代扩散先验
  • vs ATS: ATS更关注单模态的不确定性建模,Pro通过多模态融合+UM组合从更全面的角度解决问题
  • vs UBP: UBP引入不确定性建模但限于纯视觉框架,忽视表征偏移;Pro的多模态扩展更完整

评分

  • 新颖性: ⭐⭐⭐⭐ 将凹视觉机制形式化为不确定性加权掩蔽有认知科学深度,多模态融合+轻量对齐组合新颖
  • 实验充分度: ⭐⭐⭐⭐ EEG和MEG双模态验证,10个被试逐一报告,但缺少与更多最新方法的对比
  • 写作质量: ⭐⭐⭐⭐ 问题动机从认知科学角度切入有深度,但论文较长,部分描述冗余
  • 价值: ⭐⭐⭐⭐ 为BCI领域提供了实用的多模态融合框架,轻量对齐思路有推广价值

相关论文