跳转至

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

会议: ICLR 2026
arXiv: 2510.25976
代码: 项目页面
领域: medical_imaging
关键词: fMRI脑解码, 图像重建, 脑-交互Transformer, 跨被试迁移, 扩散模型, 深度图像先验

一句话总结

提出 Brain-IT 框架,通过脑启发式的 Brain Interaction Transformer (BIT) 将功能相似的脑体素聚类为跨被试共享的 Brain Token,并从中预测局部化的语义和结构图像特征,实现从 fMRI 到图像的高保真重建,仅用 1 小时数据即达到先前方法 40 小时的性能。

研究背景与动机

从 fMRI 脑信号重建视觉体验是神经科学和脑-机接口领域的核心挑战。尽管扩散模型的引入带来了显著进展,但现有方法在忠实度上仍有明显不足——生成的图像虽然视觉效果好,但常常偏离实际看到的图像,表现为:

  • 结构偏差:位置、颜色、空间布局不正确
  • 语义失真:遗漏或扭曲部分语义内容
  • 根本原因:过度依赖扩散模型的生成先验,即使脑活动引导不足也能生成"逼真"图像

作者将问题归因于三个层面:(1) fMRI 表征提取方式不当——现有方法将所有体素压缩为单一全局嵌入,丢失了视觉皮层的分布式信息;(2) 到图像特征的映射方式——全连接层无法利用脑区分布式本质;(3) 生成模型的特征整合——缺乏结构性引导。

此外,fMRI 数据采集昂贵耗时(一个被试需 40 小时扫描),如何用极少量数据迁移到新被试是重要的实际需求。

方法详解

整体架构

Brain-IT 分为两个阶段:图像特征预测(BIT 模型)→ 图像重建(双分支生成)。

1. 体素到聚类映射 (V2C)

利用 Beliy et al. (2024) 的脑编码器获得体素嵌入(捕获每个体素的功能角色),然后对所有被试的体素嵌入做高斯混合模型 (GMM) 聚类,将每个被试约 4 万个体素映射为 128 个功能聚类。关键特性: - 聚类跨被试共享,捕获不同个体中功能相似的脑区 - 将信息整合从体素级压缩到聚类级,大幅降低复杂度

2. Brain Interaction Transformer (BIT)

核心模型,将 fMRI 信号转化为局部化的图像特征

Brain Tokenizer:将 fMRI 激活转化为 Brain Token - 体素嵌入(512 维):可学习的逐体素向量,捕获功能性,与 fMRI 激活值相乘进行调制 - 聚类嵌入(512 维):可学习的逐聚类向量,作为信息选择瓶颈 - 使用单头图注意力层聚合:聚类嵌入为 Query,调制后的体素激活为 Key/Value,按 V2C 映射限制注意力范围 - 输出 128 个 512 维 Brain Token

Cross-Transformer: - 自注意力层建模聚类间的交互关系 - 交叉注意力层将 Brain Token 的信息直接映射到局部化的图像特征 - 每个 query token 对应一个输出图像特征位置,实现从功能聚类到局部图像特征的直接信息流

3. 双分支图像重建

语义分支(高级): - BIT 预测 256 个空间 OpenCLIP ViT-bigG/14 token - 训练分两阶段:先特征对齐(L2 损失),再联合训练 BIT + 扩散模型(扩散损失) - 联合训练允许 BIT 输出偏离原始 CLIP 表征,形成更适合 fMRI 条件生成的表征

低级分支(结构): - BIT 预测多层 VGG 特征(InfoNCE 损失训练) - 通过 Deep Image Prior (DIP) 反演:随机初始化 CNN 输出图像,优化使其 VGG 特征匹配 BIT 预测 - DIP 的卷积归纳偏置提供强图像先验,生成粗略但结构正确的布局

双分支融合(推理时): - 低级分支生成粗略图像 → 加噪后作为扩散过程的初始化 - 语义分支提供条件引导 → 扩散模型从粗略结构细化为精细图像 - 利用扩散模型"从粗到细"的生成特性,低级图像提供可靠的全局结构

4. 训练数据增强

使用 Beliy et al. (2024) 的图像到 fMRI 编码器为 ~12 万张 COCO 无标注图像预测 fMRI 响应,作为额外训练对,对迁移学习尤为重要。

实验关键数据

数据集:NSD 数据集(7T fMRI),4 个被试(S1/2/5/7),每被试约 9000 张图像,1000 张共享测试集。

40 小时全量数据主要结果(表 1,4 被试平均): | 指标 | MindEye2 | MindTuner | Brain-IT | |------|----------|-----------|-------------| | PixCorr ↑ | 0.322 | 0.322 | 0.386 | | SSIM ↑ | 0.431 | 0.421 | 0.486 | | Alex(2) ↑ | 96.1% | 95.8% | 98.4% | | Alex(5) ↑ | 98.6% | 98.8% | 99.5% | | Incep ↑ | 95.4% | 95.6% | 97.3% | | CLIP ↑ | 93.0% | 93.8% | 96.4% | | Eff ↓ | 0.619 | 0.612 | 0.564 | | SwAV ↓ | 0.344 | 0.340 | 0.320 |

8 项指标中 7 项 SOTA,低级指标(PixCorr、SSIM)大幅领先

1 小时迁移学习: | 指标 | MindEye2 (1h) | MindTuner (1h) | Brain-IT (1h) | |------|---------------|----------------|------------------| | PixCorr | 0.195 | 0.224 | 0.331 | | SSIM | 0.419 | 0.420 | 0.473 | | Alex(2) | 84.2% | 87.8% | 97.1% |

1 小时数据的 Brain-IT 可比肩先前方法 40 小时的性能 → 仅 15 分钟即可获得有意义的重建结果

分支贡献消融: - 低级分支:SSIM=0.505(结构保真最优),CLIP=85.8%(语义弱) - 语义分支:SSIM=0.431,CLIP=95.2%(语义强) - 双分支融合:SSIM=0.486,CLIP=96.4%(互补增强)

亮点与洞察

  1. 脑启发式设计:功能聚类 + Brain Token 的设计直接对应视觉皮层的分布式组织和视网膜拓扑结构,比全局压缩更合理
  2. 局部化特征预测:从 Brain Token 直接预测局部化图像特征(而非全局嵌入),保留空间信息,交叉注意力图显示清晰的对侧组织和语义选择性
  3. DIP 低级分支创新:用 Deep Image Prior 反演 VGG 特征是首创的信号到图像思路,无需训练即可利用 CNN 归纳偏置,有效捕获颜色、轮廓等结构信息
  4. 极高效迁移学习:仅需微调体素嵌入(冻结网络),1 小时 ≈ 先前 40 小时,15 分钟仍有意义——得益于共享聚类和权重的设计
  5. 注意力图可解释性:不同 Brain Token 对应特定空间位置和语义概念(面部、肢体、文字),具有神经科学洞察价值

局限性

  1. 重建不完美:语义和细粒度细节有时仍不准确(文中承认),可能受限于 fMRI 信号本身的分辨率
  2. 依赖预训练编码器:V2C 映射依赖 Beliy et al. 的脑编码器质量,聚类质量影响整个流水线
  3. DIP 推理开销:每张图像的低级重建需独立优化 DIP 网络,推理时间较长
  4. 数据集单一:主要在 NSD 数据集验证,虽有 NSD Synthetic 的 OOD 测试但未验证其他 fMRI 数据集
  5. 被试数量有限:仅 4 个被试(S1/2/5/7),个体差异的泛化性有待更大规模验证

相关工作

  • 全局嵌入方法: MindEye/MindEye2 (Scotti et al.) — 线性/MLP 映射 fMRI→CLIP 全局嵌入,丢失空间信息
  • 跨被试方法: MindTuner (Gong et al.), MindBridge (Wang et al.) — fMRI 扫描级对齐,仅利用扫描级共享表征
  • 体素分组: NeuroPictor (Huo et al.), NeuroVLA (Shen et al.) — 解剖空间中的体素分组,但仍预测全局表征
  • Brain-IT 优势:功能聚类 + 局部化预测 + 双分支融合,从体素到图像特征保持信息空间性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (脑启发式功能聚类、局部化特征预测、DIP低级分支均为首创)
  • 实验充分度: ⭐⭐⭐⭐ (全面指标对比,迁移学习分析充分,但仅一个数据集)
  • 写作质量: ⭐⭐⭐⭐⭐ (结构清晰,图示优秀,方法对应直觉易懂)
  • 价值: ⭐⭐⭐⭐⭐ (大幅推进 fMRI 图像重建 SOTA,1小时迁移有重要临床意义)