SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning¶

会议: NeurIPS 2025
arXiv: 2508.10298
代码: GitHub
领域: 医学图像
关键词: 视觉-fMRI合成, 变分自编码器, 概率表示学习, 脑编码, 少样本适应

一句话总结¶

提出 SynBrain 框架，通过 BrainVAE 将 fMRI 响应建模为视觉语义条件的概率分布，并用 S2N Mapper 实现一步式语义到神经空间的映射，在视觉-fMRI 合成任务上显著超越 MindSimulator（MSE 降低 65%，Pearson 提升 96%），且合成的 fMRI 可有效增强少样本跨被试解码性能。

研究背景与动机¶

理解视觉刺激如何转化为大脑皮层响应是计算神经科学的核心挑战。fMRI 作为主流脑成像方式，通过测量 BOLD 信号间接反映神经活动。视觉到 fMRI 的编码旨在建立从外部视觉感知到空间分布的神经响应的功能映射。

现有编码方法主要采用回归或确定性生成策略，但面临一个根本性矛盾：视觉到神经的映射本质上是一对多的。大规模神经影像研究（如 NSD 数据集）明确表明，相同视觉刺激的重复呈现会在不同试次、不同被试间引起显著不同的 fMRI 响应。这种变异受试次噪声、注意力波动和个体差异的影响。

现有方法的三个核心局限：

确定性建模：如 MindSimulator 使用确定性 AutoEncoder，对每个输入产生唯一的潜空间表示，将多样的神经模式坍缩为无信息量的平均响应

缺乏功能一致的变异性：无法同时建模神经响应的"模式变异"和"功能编码一致性"

合成数据的有限效用：缺乏跨被试迁移能力，限制了作为数据增强源的应用

SynBrain 的核心思路：将 fMRI 响应建模为语义条件的连续概率分布，通过概率学习捕获生物神经变异的同时保持功能一致性。

方法详解¶

整体框架¶

SynBrain 采用两阶段训练 + 推理的三步流程： - Stage 1：训练 BrainVAE，学习 fMRI 的概率潜空间分布，以 CLIP 视觉嵌入为条件 - Stage 2：训练 S2N Mapper，将 CLIP 嵌入映射到 BrainVAE 的潜空间 - Inference：冻结的 S2N Mapper 一步映射 CLIP 嵌入到潜空间，BrainVAE 解码器生成 fMRI

关键设计¶

BrainVAE：专为 fMRI 设计的变分自编码器。编码器将 fMRI 输入 $y_{\text{fMRI}} \in \mathbb{R}^{1 \times n}$ 编码为后验分布 $q(z|y)$，参数化为均值 $\mu$ 和对数方差 $\log \sigma^2$，通过重参数化技巧采样 $z \sim \mathcal{N}(\mu, \sigma^2)$。

架构创新：作者发现 MLP-based VAE（MLP-VAE）训练不稳定（MSE 发散），原因是 MLP 缺乏空间归纳偏置。BrainVAE 集成了卷积层（提取局部体素特征）和注意力层（捕捉远程体素间依赖），实现更平滑的潜空间。实验证实 BrainVAE 比 MLP-AE 和 MLP-VAE 在收敛速度和语义表达力上均显著优越。

训练目标： $$\mathcal{L}_{\text{BrainVAE}} = \mathcal{L}_{\text{MSE}} + \lambda_{\text{KL}} \mathcal{L}_{\text{KL}} + \lambda_{\text{CLIP}} \mathcal{L}_{\text{CLIP}}$$

$\mathcal{L}_{\text{MSE}} = \|D(z) - y_{\text{fMRI}}\|_2^2$：体素级重建保真
$\mathcal{L}_{\text{KL}} = D_{KL}(q(z|y_{\text{fMRI}}) \| \mathcal{N}(0,I))$：潜空间正则化，$\lambda_{\text{KL}}=0.001$
$\mathcal{L}_{\text{CLIP}} = \text{SoftCLIP}(z, z_{\text{CLIP}})$：语义对齐对比损失，$\lambda_{\text{CLIP}}=1000$
S2N Mapper（语义到神经映射器）：轻量级 Transformer 模块，由堆叠的多头自注意力层和前馈网络组成。实现非线性变换 $f_{\text{S2N}}: \mathbb{R}^{m \times d} \rightarrow \mathbb{R}^{m \times d}$，将 CLIP 视觉嵌入直接映射到 BrainVAE 的潜空间。训练目标为 MSE 损失：

$$\mathcal{L}_{\text{S2N}} = \text{MSE}(f_{\text{S2N}}(z_{\text{CLIP}}), z)$$

与 MindSimulator 使用的扩散模型对齐相比，S2N Mapper 实现一步映射，消除了迭代去噪的需要和训练-推理分布不匹配问题。

少样本跨被试适应：仅用新被试 1 小时数据微调整个 BrainVAE，但 S2N Mapper 仅更新 Transformer 中的 MLP 子模块，实现参数高效的适应。

损失函数 / 训练策略¶

使用 OpenCLIP ViT-bigG/14 作为冻结视觉编码器
AdamW 优化器，lr=1e-4，weight decay=0.05
BrainVAE 使用 early stopping 防止过拟合，S2N Mapper 训练 50K 步
4 张 A100 GPU，2 小时内完成训练

实验关键数据¶

主实验：被试特异性 fMRI 合成（4 被试平均）¶

方法	MSE↓	Pearson↑	Incep↑	CLIP↑	Syn Retrieval↑
MindSimulator (Trials=1)	.403	.346	92.1%	90.4%	-
MindSimulator (Trials=5)	.385	.357	93.1%	91.2%	-
SynBrain (Trials=1)	.139	.687	95.7%	94.3%	92.5%

SynBrain 单次采样即超越 MindSimulator 5 次采样取平均的结果。注意 Raw fMRI 检索准确率为 84.8%，而 SynBrain 合成 fMRI 达到 92.5%，说明合成信号比原始信号更好地保留了语义信息。

消融实验（Subject 1）¶

配置	MSE↓	Pearson↑	CLIP↑	Syn Retrieval↑	说明
SynBrain	.079	.715	95.9%	99.3%	完整模型
w/o 变分采样	.086	.687	86.7%	88.4%	用确定性AE
w/o 对比学习	.127	.635	84.5%	0.4%	去掉CLIP损失
w/o S2N Mapper	.105	.564	75.0%	50.5%	直接用对比对齐

少样本适应 + 数据增强效果¶

方法	CLIP↑	Eff↓	Brain Retrieval↑
MindEye2 (1h)	80.8%	.798	77.6%
MindAligner (1h)	81.8%	.800	86.9%
MindEye2+DA(1h)	84.7%	.770	82.0%

仅添加 1 小时合成数据即提升 CLIP 相似度 3.9%，证明合成 fMRI 作为数据增强的有效性。

关键发现¶

概率建模是关键：去掉变分采样后语义对齐下降 ~9%，表明分布级学习比确定性模式更好地捕获了功能一致性
对比学习是语义空间对齐的根基：去掉后检索准确率从 99.3% 崩溃到 0.4%
S2N Mapper 弥合了模态鸿沟：去掉后 CLIP 从 95.9% 降至 75.0%
跨试次功能一致性：类别选择性区域（如梭状回面孔区）跨试次保持一致的激活模式
跨被试功能一致性：仅 1 小时适应数据即可产生与全数据训练接近的激活模式

亮点与洞察¶

将神经响应建模为概率分布而非确定性映射，准确对应了脑科学中神经变异的基本特性
BrainVAE 的架构设计（卷积+注意力替代纯 MLP）解决了 VAE 在高维 fMRI 上训练不稳定的问题
一步映射 vs 扩散模型：更简洁高效且避免了分布不匹配问题
合成 fMRI 的检索准确率超过原始 fMRI，说明模型学会了"去噪"并提取语义核心

局限与展望¶

依赖 CLIP 视觉编码器，可能引入与神经处理不完全对齐的表示偏差
无法建模所有变异来源（如注意力状态波动、神经调质效应）
仅在 NSD 数据集上验证，泛化性需进一步检验
数据增强效果随合成数据量增加出现平台/下降，质量-多样性平衡需优化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 概率神经编码模型+一步映射，生物学解释充分
实验充分度: ⭐⭐⭐⭐⭐ 多被试+少样本+数据增强+消融+脑功能分析
写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法-实验-分析环环相扣
价值: ⭐⭐⭐⭐⭐ 对神经科学和BCI领域都有直接价值