CognitionCapturerPro: Towards High-Fidelity Visual Decoding from EEG/MEG via Multi-modal Information and Asymmetric Alignment¶

会议: CVPR 2026
arXiv: 2603.12722
代码: 待公开
领域: 图像生成 / 脑信号解码
关键词: EEG视觉解码, 多模态融合, 不确定性建模, 脑机接口, 扩散模型重建

一句话总结¶

CognitionCapturerPro通过不确定性加权掩蔽解决保真度损失、多模态融合编码器整合图像/文本/深度/边缘信息解决表征偏移，配合轻量共享主干对齐替代扩散先验，在THINGS-EEG数据集上Top-1/Top-5检索准确率分别提升25.9%和10.6%。

研究背景与动机¶

领域现状：从EEG信号解码视觉刺激是脑机接口的重要方向。主流方法将EEG嵌入与CLIP空间对齐来实现检索和重建。EEG因其便携性和毫秒级时间分辨率成为最有潜力的实用化模态。

现有痛点：神经科学研究揭示了两大核心瓶颈——(1) 保真度损失（Fidelity Loss）：视觉系统将刺激转为神经信号时，注意力机制导致信息不完整（如只关注自行车轮子而非整车）；(2) 表征偏移（Representational Shift）：大脑的联想机制引入非视觉语义（如看到企鹅联想到南极），使神经信号偏离视觉特征。现有方法要么只处理语义对齐忽略保真度损失，要么仅在视觉框架内建模不确定性忽略语义联想。

核心矛盾：EEG信号与视觉刺激之间存在系统性错配，这种错配来自两个独立机制（信息丢失 + 主观偏差），必须同时解决才能实现高保真解码。

本文目标 在有限的神经数据条件下，如何同时克服保真度损失和表征偏移，实现准确的脑信号到图像的检索和重建。

切入角度：作者从会议版CognitionCapturer的多模态扩展策略出发，新增不确定性加权机制解决保真度损失，并用更轻量的MLP对齐替代扩散先验降低过拟合风险。

核心 idea：用不确定性驱动的动态掩蔽模拟人类凹视觉来解决保真度损失，用多模态融合+共享主干对齐来解决表征偏移。

方法详解¶

整体框架¶

框架包含五个核心组件：(1) 不确定性加权掩蔽（UM）模拟凹视觉；(2) 四个模态专用编码器将EEG映射到图像/文本/深度/边缘嵌入空间；(3) 融合编码器通过跨模态Transformer整合所有嵌入；(4) 共享主干+模态头对齐（STH-Align）将嵌入映射到统一图像空间；(5) SDXL-Turbo + IP-Adapter生成高保真重建图像。

关键设计¶

不确定性加权掩蔽（Uncertainty-Weighted Masking）:
- 功能：动态调整训练样本的图像模糊强度，模拟人类凹视觉机制
- 核心思路：首先对图像施加仿凹视觉的空间渐变模糊——中心清晰边缘模糊，模糊核 \(\mathbf{M}_{\text{fovea}}(i,j)\) 从中心到边缘指数衰减。然后根据模型当前对齐水平动态调节模糊强度：利用EMA平滑的历史相似度分数建立置信区间，"简单"样本（高相似度）增加模糊防止过拟合，"困难"样本（低相似度）减少模糊促进关键特征学习
- 设计动机：直接对齐假设神经信号完整表示了刺激，忽略了人类注意力的选择性和局部性。UM通过模拟信息丢失过程来缩小模态间的系统性差距
多模态融合编码器（Fusion Encoder）:
- 功能：将四个模态专用EEG嵌入整合为统一表示
- 核心思路：四个嵌入经线性投影对齐到共享维度 \(d=1024\)，加上可学习模态位置编码后输入两层Transformer编码器，通过多头自注意力实现跨模态交互。全局平均池化+残差MLP输出融合嵌入 \(\mathbf{z}_{\text{fus}}\)。训练时随机置零一个模态（Modality Masking）增强鲁棒性
- 设计动机：不同模态提供互补信息——图像捕获语义、文本编码联想、深度反映3D结构、边缘保留轮廓。融合而非简单拼接能让模态间相互增强
共享主干与模态头对齐（STH-Align）:
- 功能：替代扩散先验，用轻量MLP将多模态嵌入对齐到图像嵌入空间
- 核心思路：将四个EEG嵌入拼接后送入4层SiLU-MLP共享主干得到公共表示 \(\mathbf{f}\)，再通过四个2层MLP模态头输出 \(\hat{\mathbf{e}}^m\)，优化MSE + 余弦 + 正则三部分损失 \(\mathcal{L}_{\text{STH}} = \sum_m [\lambda_{\text{mse}}\|\hat{\mathbf{e}}^m - \mathbf{v}^m\|_2^2 + \lambda_{\text{cos}}(1-\cos(\hat{\mathbf{e}}^m, \mathbf{v}^m)) + \lambda_{\text{reg}}\|\hat{\mathbf{e}}^m\|_2^2]\)
- 设计动机：扩散先验需要大规模数据，在仅数万EEG-图像对的条件下容易过拟合且推理昂贵。轻量MLP对齐在小数据上更稳定

损失函数 / 训练策略¶

编码器阶段使用SCM-Loss（相似度-类别掩蔽对比损失）：构建相似度矩阵后，仅将同类别且top-k相似的样本作为正对，解决EEG数据集固有的一对多映射冲突。STH-Align单独训练，使用MSE+余弦+正则三部分损失。重建阶段使用3个IP-Adapter分支（图像/深度/边缘）注入SDXL-Turbo。

实验关键数据¶

主实验¶

THINGS-EEG零样本检索（10个被试平均）：

方法	Top-1	Top-5
BraVL	5.8	17.5
NICE	14.1	43.6
MB2C	28.4	60.3
CognitionCapturer	35.6	80.2
ATS	60.2	86.7
CogCapPro(F)	61.2	90.8

CogCapPro(F)融合模式达到最优，对比会议版CognitionCapturer提升25.6%/10.6%。

消融实验¶

模态配置	Top-1	Top-5	说明
CogCapPro(I)	52.7	83.5	仅图像模态
CogCapPro(T)	14.2	38.6	仅文本模态
CogCapPro(D)	17.5	44.3	仅深度模态
CogCapPro(E)	29.9	64.4	仅边缘模态
CogCapPro(F)	61.2	90.8	全模态融合

关键发现¶

多模态融合比最佳单模态（图像）高出8.5%/7.3%，证明多模态互补信息的价值
图像模态贡献最大，边缘次之，文本最弱——符合EEG信号主要编码视觉而非语言信息的认知科学预期
不确定性加权掩蔽对"困难"被试（如Subject 5的Top-1仅45.2%）改善最显著
在THINGS-MEG数据集上同样有效，验证跨脑信号模态的泛化性

亮点与洞察¶

不确定性驱动的课程学习思路：根据模型当前对齐水平动态调整训练难度，本质上是自适应课程学习。这种"对齐水平反馈到数据增强"的闭环设计可迁移到任何跨模态对齐任务。
SCM-Loss解决一对多映射：EEG数据集中同类不同样本在InfoNCE中互相拉扯产生矛盾梯度，SCM通过语义标签+相似度双重过滤的正对选择，巧妙化解了这个根本性训练问题。
轻量对齐替代扩散先验：在小数据场景下MLP对齐优于扩散先验，这对整个脑解码社区是个实用启示——不必盲目追求复杂架构。

局限与展望¶

THINGS-EEG数据集被试较少（10人），个体差异大（Subject 5 vs Subject 8差距28%）
EEG空间分辨率低，重建的图像在高频细节上仍有明显模糊
多模态标注（文本/深度/边缘）在部署时需额外计算，实时BCI场景的延迟未讨论
未探索端到端训练（当前编码器和对齐分开训练）

评分¶

新颖性: ⭐⭐⭐⭐ 将凹视觉机制形式化为不确定性加权掩蔽有认知科学深度，多模态融合+轻量对齐组合新颖
实验充分度: ⭐⭐⭐⭐ EEG和MEG双模态验证，10个被试逐一报告，但缺少与更多最新方法的对比
写作质量: ⭐⭐⭐⭐ 问题动机从认知科学角度切入有深度，但论文较长，部分描述冗余
价值: ⭐⭐⭐⭐ 为BCI领域提供了实用的多模态融合框架，轻量对齐思路有推广价值