Towards Interpretable Visual Decoding with Attention to Brain Representations¶

会议: ICLR 2026
arXiv: 2509.23566
代码: GitHub
领域: 脑机接口 / 视觉解码 / 医学影像
关键词: fMRI 视觉解码, 端到端脑-图像重建, 交叉注意力条件化, 双向可解释性, 脑区 token

一句话总结¶

提出 NeuroAdapter，将 fMRI 信号按脑区分割为独立 token 并通过交叉注意力直接条件化 Stable Diffusion，跳过传统的 CLIP/DINO 中间嵌入空间，在 NSD 等数据集上高层语义指标超越或持平现有方法，同时引入 IBBI 双向可解释性框架，首次动态揭示不同皮层区域在去噪轨迹中如何驱动图像生成。

研究背景与动机¶

领域现状：从人脑 fMRI 活动重建视觉刺激是计算神经科学的核心挑战。当前主流方法采用两阶段流水线——先将 fMRI 映射到预训练视觉-语言模型的嵌入空间（如 CLIP、DINO），再用这些嵌入引导 Stable Diffusion 等生成模型重建图像。代表工作包括 Brain Diffuser、MindEye1、DREAM 等。

现有痛点：两阶段流水线存在两个根本问题。（1）信息瓶颈：中间嵌入空间的维度和语义覆盖范围有限，fMRI 中丰富的低层/高层神经信息可能在映射过程中丢失——重建质量取决于 fMRI 与嵌入空间的对齐程度而非脑活动本身的信息量。（2）可解释性被遮蔽：中间映射切断了脑区与生成结果之间的直接联系，无法追溯"哪些脑区驱动了图像的哪些部分"，限制了解码方法在神经科学研究中的价值。

核心矛盾：两阶段方法将"提升重建质量"和"保持可解释性"置于对立面——嵌入空间的引入提升了生成质量但牺牲了脑区归因的透明性。

本文目标（1）设计一个端到端框架，直接从 fMRI 到图像，不经过中间嵌入空间；（2）在不损失重建质量的前提下，实现脑区级别的可解释性——动态追踪每个皮层区域对生成过程的贡献。

切入角度：将每个脑区视为一个独立的 token，通过交叉注意力机制让扩散模型直接"关注"这些脑区 token。这种设计天然地将注意力权重与脑区一一对应，注意力矩阵本身就成为可解释性的分析对象。

核心 idea：用脑区粒度的 token 通过交叉注意力直接条件化扩散模型，让注意力权重成为可解释性的天然载体。

方法详解¶

整体框架¶

输入：受试者观看图片时的 fMRI 皮层表面数据 → Schaefer 分区得到 500 脑区/半球 → 选择 SNR 最高的 \(p=200\) 个脑区 → 每个脑区通过独立线性投影映射为 token 嵌入 \(E \in \mathbb{R}^{p \times f}\) → 替换 Stable Diffusion U-Net 的交叉注意力层为 IP-Adapter 风格模块，让 U-Net 空间 query 直接关注 fMRI token → 生成重建图像。训练时冻结 SD 主体参数，只更新脑区投影矩阵和新交叉注意力模块。推理端用脑编码器从多个候选图像中选择最优重建。

关键设计¶

脑区粒度 Token 化与线性映射:
- 功能：将高维 fMRI 皮层数据转化为结构化的 token 序列，作为扩散模型的条件输入
- 核心思路：对每个脑区 \(P_i\)，将其包含的顶点响应向量填充到最大顶点数 \(v_{max}\)，再通过独立投影矩阵 \(w \in \mathbb{R}^{v_{max} \times f}\)（\(f=768\)）映射为一个 \(f\) 维 token。200 个脑区产生 200 个 token，构成条件序列 \(E \in \mathbb{R}^{p \times f}\)。每个脑区有自己的投影矩阵，不共享参数
- 设计动机：关键在于"一个脑区 = 一个 token"的对应关系。这不同于将整个大脑展平为一个高维向量再投影——脑区粒度的 token 化使得交叉注意力矩阵的每一列天然对应一个解剖学定义的脑区，为后续可解释性分析奠定基础。使用线性映射而非 MLP 是有意为之，避免非线性变换模糊脑区信息的来源
fMRI Token Dropout 正则化:
- 功能：防止模型过度依赖特定脑区，增强解码鲁棒性
- 核心思路：训练时对每个样本独立采样 dropout 概率 \(r \sim \mathcal{U}(0,1)\)，生成二值掩码 \(M \in \{0,1\}^{p \times 1}\)，每个 token 以概率 \(r\) 被置零：\(E' = E \odot M\)。注意 dropout 概率本身也是均匀随机的，训练中模型会接触从几乎不丢弃到几乎全部丢弃的各种程度
- 设计动机：类似于 classifier-free guidance 中的条件 dropout，让模型学会在不同信息量下都能产生合理输出。消融实验表明这一设计对性能至关重要——去掉后高层语义指标显著下降
脑编码器辅助的图像选择:
- 功能：缓解扩散模型随机性导致的生成质量不稳定
- 核心思路：对每个测试 fMRI 样本，用不同随机种子生成 \(n\) 张候选图像。用一个预训练的全脑编码器（Transformer 架构）预测每张候选图像应产生的 fMRI 响应 \(B'_i\)，计算预测响应与真实测量 fMRI 的 Pearson 相关性，选择相关性最高的图像作为最终输出
- 设计动机：扩散模型的随机性是一把双刃剑——同一条件下可能生成质量差异很大的图像。通过脑编码器"回验"，选择最符合原始脑活动模式的重建结果，本质上是利用编码-解码一致性作为质量筛选标准

IBBI 双向可解释性框架¶

IBBI（Image–Brain BI-directional）框架利用交叉注意力矩阵 \(A^{(\ell,h,t)} \in \mathbb{R}^{q \times p}\) 提供两个互补分析视角：

脑导向视图——"哪些脑区在驱动生成？"：对注意力矩阵在 query 维度、层、头上聚合，得到脑区贡献向量 \(B^{(t)} \in \mathbb{R}^p\)，满足 \(\sum_j B_j^{(t)} = 1\)。投影到皮层表面即可可视化每个去噪步中各脑区的相对影响力。

图像导向视图——"某个脑区在关注图像的哪里？"：对给定 ROI \(\mathcal{R}\)，在 head 和 ROI 内 token 上池化注意力，得到每层的 query-wise 注意力图 \(m_\mathcal{R}^{(\ell,t)} \in \mathbb{R}^{q^\ell}\)，reshape 为 2D 并上采样到图像分辨率后层间平均，得到 ROI 注意力图 \(I_\mathcal{R}^{(t)}\)。这揭示了特定脑区（如 FFA 面部区域、PPA 场景区域）在图像空间中的"功能足迹"。

损失函数 / 训练策略¶

基础扩散损失配合 Min-SNR 加权策略：降低高 SNR（噪声少、重建容易）步的损失权重，保持低 SNR（噪声大、重建难）步的权重，平衡训练信号。文本编码器接收空输入，确保 fMRI token 是唯一的条件来源。训练 300 epoch，batch size 16，2 张 NVIDIA L40 GPU，约 25 小时。

实验关键数据¶

主实验¶

在 NSD 数据集上与主流方法的对比（4 个受试者平均，相对 ImageNet 检索基线的提升百分比）：

方法	类型	CLIP↑	Incep↑	Eff↑	SwAV↑	PixCorr↑	SSIM↑
Brain Diffuser (w/ VDVAE)	两阶段	较高	较高	较高	较高	最高	最高
Brain Diffuser (w/o VDVAE)	两阶段	中等	中等	中等	中等	与本文相当	与本文相当
MindEye1	两阶段	高	高	高	高	中等	中等
DREAM	两阶段	高	高	高	高	中等	中等
MindFormer	多受试者	高	高	高	高	中等	中等
NeuroAdapter（本文）	端到端	最高/持平	最高/持平	竞争力	竞争力	中等	中等

关键结论：NeuroAdapter 在高层语义指标（CLIP、Incep、Eff、SwAV）上与使用 CLIP/DINO 嵌入的两阶段方法竞争甚至超越；低层指标（PixCorr、SSIM）上与去掉 VDVAE 路径的 Brain Diffuser 相当——说明低层指标的差距来自 VDVAE 的额外低层特征路径，而非端到端方法本身的局限。

消融实验¶

在 NSD Subject 1 上进行的关键消融（相对基线的变化方向）：

配置	高层指标	低层指标	说明
Full NeuroAdapter	最优	最优	完整模型，\(p=200\), \(f=768\)
w/o fMRI Token Dropout	显著下降	下降	Dropout 对鲁棒性至关重要
w/o Min-SNR 加权	轻微下降	下降	训练信号平衡有一定帮助
w/o 脑编码器选择	下降	下降	随机性导致质量不稳定
\(p=50\)（脑区数少）	显著下降	下降	信息量不足
\(p=400\)（脑区数多）	轻微下降	轻微下降	低 SNR 脑区引入噪声
仅用视觉 token（无脑区结构）	大幅下降	大幅下降	脑区粒度 token 化是核心

关键发现¶

fMRI Token Dropout 是最关键的设计：去掉后性能大幅下滑，说明模型容易过拟合到特定脑区组合。均匀采样 dropout 概率的设计比固定概率更有效
脑区数 \(p=200\) 是甜蜜点：太少（50）信息不足，太多（400）引入低 SNR 噪声。SNR 筛选 + 适量脑区的组合最有效
高级视觉区域主导生成动态：IBBI 分析显示 FFA（面部选择区）、PPA（场景选择区）等高阶视觉区的注意力贡献始终远高于 V1/V2 等低层视觉区
注意力图的时间动态与神经科学一致：早期去噪步注意力分散在整个图像上，随着去噪推进逐渐集中到语义相关区域——面部 ROI 收敛到人脸、场景 ROI 扩展到背景
因果扰动验证了功能选择性：遮蔽低层视觉 ROI（V1-V3）不影响语义内容，但遮蔽高层 ROI（FFA、PPA、LOC）完全改变生成图像，验证了高阶区域携带核心语义信息
NSD-Imagery 和 Deeprecon 上的泛化：在心理意象任务和训练/测试类别不重叠的设置下，NeuroAdapter 均展现出合理的泛化能力，高层语义指标与现有方法可比

亮点与洞察¶

"一个脑区 = 一个 token"的设计极其巧妙：这一看似简单的对应关系同时解决了条件化和可解释性两个问题——交叉注意力矩阵的每一列直接对应一个解剖学脑区，无需额外探针或后处理即可分析脑区贡献。这种"设计即可解释"的思路值得借鉴
IBBI 框架提供了生成模型的神经科学探针：将扩散模型的去噪轨迹与脑区功能连接，不仅验证了已知的视觉层次结构（低层→低层特征、高层→语义），还提供了时间维度的新发现（注意力从扩散到收敛的动态过程）
"去掉中间嵌入反而不掉点"的反直觉结论：说明 fMRI 本身携带的信息足以直接驱动高质量生成，CLIP/DINO 嵌入空间更多是便利而非必要的。这对其他模态的条件生成有启示——是否也可以跳过中间表示？
脑编码器选择策略是一个通用的生成质量筛选范式：通过"逆向编码"回验重建结果与输入条件的一致性，可推广到任何条件生成任务中

局限与展望¶

低层视觉特征重建偏弱：端到端方法放弃了 VDVAE 等低层特征路径，在 PixCorr/SSIM 上有差距。可考虑添加一个轻量的像素级辅助损失或波形 VAE 分支
扩散模型随机性问题：即使有脑编码器选择，生成质量仍然不稳定。未来可探索确定性采样或一致性模型减少随机性
可解释性仍是相关性而非因果性：交叉注意力权重反映的是"模型选择关注什么"而非"脑区真正编码了什么"。因果扰动分析是一步，但更严格的因果推断方法仍有必要
受试者规模有限：NSD 仅 8 名受试者，跨受试者泛化性未被充分验证。未来应结合功能对齐技术支持跨受试者解码
脑编码器引入额外开销：选择策略需要预训练编码器 + 多次前向传播，推理成本较高

评分¶

新颖性: ⭐⭐⭐⭐ 端到端条件化 + "设计即可解释"的思路是重要范式创新
实验充分度: ⭐⭐⭐⭐ 三个数据集、完整消融、IBBI 定性定量分析，但低层指标讨论可更深入
写作质量: ⭐⭐⭐⭐ 方法和可解释性框架描述清晰，图示精良
价值: ⭐⭐⭐⭐ 为神经科学解码研究提供了新的可解释性工具，高层语义重建 SOTA 水平