CognitionCapturerPro: Towards High-Fidelity Visual Decoding from EEG/MEG via Multi-modal Information and Asymmetric Alignment¶

会议: CVPR 2026 arXiv: 2603.12722 代码: 暂无（论文称发表后公开）领域: 脑信号解码 / 图像生成 关键词: EEG解码, 多模态融合, 视觉重建, 对比学习, 扩散模型

一句话总结¶

提出 CognitionCapturerPro，通过不确定性加权遮蔽（UM）、多模态融合编码器和共享主干-多头对齐（STH-Align），整合 EEG 信号与图像/文本/深度/边缘四种模态，在 THINGS-EEG 上实现 Top-1 检索准确率 61.2%、Top-5 达 90.8%，较前作 CognitionCapturer 提升 25.9% 和 10.6%。

研究背景与动机¶

从脑电信号（EEG/MEG）解码视觉刺激面临两个核心瓶颈：

保真度损失（Fidelity Loss）：视觉系统在将刺激转化为神经信号时不可避免地丢失部分信息——受注意力机制限制，人类对图像的感知往往是局部和选择性的
表征偏移（Representational Shift）：大脑的联想机制会在处理视觉信息时激活超出视觉内容本身的语义网络（如看到企鹅会联想到冰、南极等），导致脑信号偏离原始图像特征

现有方法要么只关注语义对齐忽略保真度损失，要么仅处理感知不确定性而遗漏表征偏移。CognitionCapturerPro 首次统一解决这两个挑战。

方法详解¶

整体框架¶

系统包含五个核心组件，分为三个阶段：

编码阶段：Uncertainty-Weighted Masking → Modality Expert Encoders → Fusion Encoder
对齐阶段：STH-Align（共享主干+多模态投影头）
生成阶段：SDXL-Turbo + 多分支 IP-Adapter 重建

每个 EEG 样本与四种模态（图像、文本、深度图、边缘图）配对训练，形成一对多的多模态监督。

关键设计¶

不确定性加权遮蔽（Uncertainty-Weighted Masking, UM）：模拟人类中央凹视觉机制，对图像施加空间变化的模糊处理。核心公式为：

$$\mathbf{M}_{\text{fovea}}(i,j) = r_{\text{edge}} + (r_{\text{centre}} - r_{\text{edge}}) \cdot \exp\left(-\lambda \frac{d_{ij}}{d_{\max}}\right)$$

通过 EMA 记忆库追踪每个样本的对齐得分 $\hat{s}_i$，动态调整模糊强度 $\sigma$："简单"样本增大模糊防止过拟合，"困难"样本减小模糊聚焦核心特征。设计动机是用课程学习思想应对 EEG 信号的保真度差异。

相似度-类别遮蔽损失（SCM-Loss）：解决 EEG 数据集中一对多映射导致的 InfoNCE 训练悖论——同一语义类别的样本同时被拉近又推远。SCM-Loss 定义遮蔽概率矩阵：

$$M_{ij} = \frac{\exp(S_{ij} \cdot m_{ij})}{\sum_{l=1}^{B} \exp(S_{il} \cdot m_{il})}$$

其中 $m_{ij} = 1$ 当且仅当 $y_i = y_j$ 且 $j \in \text{top-}k(S_{i,\cdot})$，确保仅语义相同且高相似度的样本作为正对。Top-k 设为 10。贡献最大的模块，单独引入提升 Top-1 准确率 6.0%。

共享主干与多头对齐（STH-Align）：取代计算昂贵的扩散先验（Diffusion Prior），使用轻量级 4 层 MLP 共享主干处理拼接后的四模态嵌入 $\mathbf{x}_{\text{cat}} = [\mathbf{e}^{\text{img}}; \mathbf{e}^{\text{txt}}; \mathbf{e}^{\text{depth}}; \mathbf{e}^{\text{edge}}] \in \mathbb{R}^{4d}$，各模态专有投影头输出 L2 归一化特征。损失函数：

$$\mathcal{L}_{\text{STH}} = \sum_m \left[\lambda_{\text{mse}}\|\hat{\mathbf{e}}^m - \mathbf{v}^m\|_2^2 + \lambda_{\text{cos}}(1 - \cos(\hat{\mathbf{e}}^m, \mathbf{v}^m)) + \lambda_{\text{reg}}\|\hat{\mathbf{e}}^m\|_2^2\right]$$

训练时随机丢弃一个模态增强鲁棒性，推理时仅需 EEG 输入。

融合编码器：2 层 Transformer，输入为四个模态专家编码器的嵌入加可学习模态位置编码，通过自注意力跨模态交互后全局平均池化 + 残差 MLP 输出统一表征 $\mathbf{z}_{\text{fus}} \in \mathbb{R}^{1024}$。

损失函数 / 训练策略¶

编码器训练使用 SCM-Loss，各模态专家编码器配备独立优化器防止模态间信息泄露
STH-Align 单独训练（MSE + Cosine + L2 正则），权重 $\lambda_{\text{mse}}=1.0$, $\lambda_{\text{cos}}=0.5$, $\lambda_{\text{reg}}=10^{-4}$
生成阶段使用冻结的 SDXL-Turbo + 3 个 IP-Adapter 分支（图像/深度/边缘），排除文本模态以减少不确定性
训练 80 epochs，batch size 1024，8 × RTX 3090

实验关键数据¶

主实验¶

数据集	指标	CogCapPro (Fusion)	之前 SOTA (ATS)	提升
THINGS-EEG	Top-1 ↑	61.2%	60.2%	+1.0%
THINGS-EEG	Top-5 ↑	90.8%	86.7%	+4.1%
THINGS-MEG	Top-1 ↑	31.8%	32.3% (ATS)	-0.5%
THINGS-MEG	Top-5 ↑	64.6%	62.4% (ATS)	+2.2%
重建	CLIP ↑	0.830	0.786 (ATM)	+0.044
重建	SSIM ↑	0.398	0.347 (CogCap)	+0.051

消融实验¶

配置	Top-1 ↑	Top-5 ↑	说明
Baseline	51.8	84.8	无 UM / SCM-Loss / Mask
+ UM	54.7	87.1	不确定性加权遮蔽，+2.9
+ UM + SCM-Loss	60.7	90.4	SCM 贡献最大，+6.0
+ UM + SCM-Loss + Modality Mask	61.2	90.8	完整模型

关键发现¶

多模态融合（Fusion）显著优于任何单模态：图像模态 Top-1 52.7%、边缘 29.9%、深度 17.5%、文本 14.2%，融合后 61.2%
RN50 作为图像编码器优于 ViT-H-14（61.2% vs. 56.0%），可能因 EEG 信号信息密度有限，与 RN50 特征分布更匹配
模态遮蔽（Modality Mask）训练策略有效提升了缺失模态下的鲁棒性

亮点与洞察¶

首次系统性地将 EEG 解码问题分解为"保真度损失"和"表征偏移"两个维度，并分别设计对应模块
UM 机制巧妙借鉴人类视觉系统的中央凹特性，用课程学习思想自适应调节训练难度
STH-Align 用简单 MLP 替代扩散先验，在小数据量下避免过拟合且推理高效
多模态扩展策略（图像→文本/深度/边缘）为 EEG 解码提供了丰富的互补监督信号

局限性 / 可改进方向¶

训练数据量有限（THINGS-EEG 仅 ~16K 图像），限制了更复杂模型的潜力
MEG 数据上的 Top-1 略低于 ATS，表明方法在不同脑信号模态间的泛化仍需提升
重建质量仍远落后于 fMRI 方法（MindEye PixCorr 0.322 vs. CogCapPro 0.163），EEG 信噪比瓶颈未解决
文本模态对检索贡献最小（14.2%），如何更有效利用语义信息值得探索

评分¶

新颖性: ⭐⭐⭐⭐ 保真度损失与表征偏移的二元分析框架新颖，UM 和 SCM-Loss 设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ EEG + MEG 双数据集，10+ 基线对比，模块/编码器/模态多维度消融
写作质量: ⭐⭐⭐ 内容详实但结构偏复杂，部分符号定义分散
价值: ⭐⭐⭐⭐ 在 EEG 视觉解码领域达到新 SOTA，多模态融合思路有迁移价值