Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer¶

会议: ICLR 2026
arXiv: 2510.25976
代码: 项目页面
领域: medical_imaging
关键词: fMRI脑解码, 图像重建, 脑-交互Transformer, 跨被试迁移, 扩散模型, 深度图像先验

一句话总结¶

提出 Brain-IT 框架，通过脑启发式的 Brain Interaction Transformer (BIT) 将功能相似的脑体素聚类为跨被试共享的 Brain Token，并从中预测局部化的语义和结构图像特征，实现从 fMRI 到图像的高保真重建，仅用 1 小时数据即达到先前方法 40 小时的性能。

研究背景与动机¶

从 fMRI 脑信号重建视觉体验是神经科学和脑-机接口领域的核心挑战。尽管扩散模型的引入带来了显著进展，但现有方法在忠实度上仍有明显不足——生成的图像虽然视觉效果好，但常常偏离实际看到的图像，表现为：

结构偏差：位置、颜色、空间布局不正确
语义失真：遗漏或扭曲部分语义内容
根本原因：过度依赖扩散模型的生成先验，即使脑活动引导不足也能生成"逼真"图像

作者将问题归因于三个层面：(1) fMRI 表征提取方式不当——现有方法将所有体素压缩为单一全局嵌入，丢失了视觉皮层的分布式信息；(2) 到图像特征的映射方式——全连接层无法利用脑区分布式本质；(3) 生成模型的特征整合——缺乏结构性引导。

此外，fMRI 数据采集昂贵耗时（一个被试需 40 小时扫描），如何用极少量数据迁移到新被试是重要的实际需求。

方法详解¶

整体架构¶

Brain-IT 分为两个阶段：图像特征预测（BIT 模型）→ 图像重建（双分支生成）。

1. 体素到聚类映射 (V2C)¶

利用 Beliy et al. (2024) 的脑编码器获得体素嵌入（捕获每个体素的功能角色），然后对所有被试的体素嵌入做高斯混合模型 (GMM) 聚类，将每个被试约 4 万个体素映射为 128 个功能聚类。关键特性： - 聚类跨被试共享，捕获不同个体中功能相似的脑区 - 将信息整合从体素级压缩到聚类级，大幅降低复杂度

2. Brain Interaction Transformer (BIT)¶

核心模型，将 fMRI 信号转化为局部化的图像特征：

Brain Tokenizer：将 fMRI 激活转化为 Brain Token - 体素嵌入（512 维）：可学习的逐体素向量，捕获功能性，与 fMRI 激活值相乘进行调制 - 聚类嵌入（512 维）：可学习的逐聚类向量，作为信息选择瓶颈 - 使用单头图注意力层聚合：聚类嵌入为 Query，调制后的体素激活为 Key/Value，按 V2C 映射限制注意力范围 - 输出 128 个 512 维 Brain Token

Cross-Transformer： - 自注意力层建模聚类间的交互关系 - 交叉注意力层将 Brain Token 的信息直接映射到局部化的图像特征 - 每个 query token 对应一个输出图像特征位置，实现从功能聚类到局部图像特征的直接信息流

3. 双分支图像重建¶

语义分支（高级）： - BIT 预测 256 个空间 OpenCLIP ViT-bigG/14 token - 训练分两阶段：先特征对齐（L2 损失），再联合训练 BIT + 扩散模型（扩散损失） - 联合训练允许 BIT 输出偏离原始 CLIP 表征，形成更适合 fMRI 条件生成的表征

低级分支（结构）： - BIT 预测多层 VGG 特征（InfoNCE 损失训练） - 通过 Deep Image Prior (DIP) 反演：随机初始化 CNN 输出图像，优化使其 VGG 特征匹配 BIT 预测 - DIP 的卷积归纳偏置提供强图像先验，生成粗略但结构正确的布局

双分支融合（推理时）： - 低级分支生成粗略图像 → 加噪后作为扩散过程的初始化 - 语义分支提供条件引导 → 扩散模型从粗略结构细化为精细图像 - 利用扩散模型"从粗到细"的生成特性，低级图像提供可靠的全局结构

4. 训练数据增强¶

使用 Beliy et al. (2024) 的图像到 fMRI 编码器为 ~12 万张 COCO 无标注图像预测 fMRI 响应，作为额外训练对，对迁移学习尤为重要。

实验关键数据¶

数据集：NSD 数据集（7T fMRI），4 个被试（S1/2/5/7），每被试约 9000 张图像，1000 张共享测试集。

40 小时全量数据主要结果（表 1，4 被试平均）： | 指标 | MindEye2 | MindTuner | Brain-IT | |------|----------|-----------|-------------| | PixCorr ↑ | 0.322 | 0.322 | 0.386 | | SSIM ↑ | 0.431 | 0.421 | 0.486 | | Alex(2) ↑ | 96.1% | 95.8% | 98.4% | | Alex(5) ↑ | 98.6% | 98.8% | 99.5% | | Incep ↑ | 95.4% | 95.6% | 97.3% | | CLIP ↑ | 93.0% | 93.8% | 96.4% | | Eff ↓ | 0.619 | 0.612 | 0.564 | | SwAV ↓ | 0.344 | 0.340 | 0.320 |

→ 8 项指标中 7 项 SOTA，低级指标（PixCorr、SSIM）大幅领先

1 小时迁移学习： | 指标 | MindEye2 (1h) | MindTuner (1h) | Brain-IT (1h) | |------|---------------|----------------|------------------| | PixCorr | 0.195 | 0.224 | 0.331 | | SSIM | 0.419 | 0.420 | 0.473 | | Alex(2) | 84.2% | 87.8% | 97.1% |

→ 1 小时数据的 Brain-IT 可比肩先前方法 40 小时的性能 → 仅 15 分钟即可获得有意义的重建结果

分支贡献消融： - 低级分支：SSIM=0.505（结构保真最优），CLIP=85.8%（语义弱） - 语义分支：SSIM=0.431，CLIP=95.2%（语义强） - 双分支融合：SSIM=0.486，CLIP=96.4%（互补增强）

亮点与洞察¶

脑启发式设计：功能聚类 + Brain Token 的设计直接对应视觉皮层的分布式组织和视网膜拓扑结构，比全局压缩更合理
局部化特征预测：从 Brain Token 直接预测局部化图像特征（而非全局嵌入），保留空间信息，交叉注意力图显示清晰的对侧组织和语义选择性
DIP 低级分支创新：用 Deep Image Prior 反演 VGG 特征是首创的信号到图像思路，无需训练即可利用 CNN 归纳偏置，有效捕获颜色、轮廓等结构信息
极高效迁移学习：仅需微调体素嵌入（冻结网络），1 小时 ≈ 先前 40 小时，15 分钟仍有意义——得益于共享聚类和权重的设计
注意力图可解释性：不同 Brain Token 对应特定空间位置和语义概念（面部、肢体、文字），具有神经科学洞察价值

局限性¶

重建不完美：语义和细粒度细节有时仍不准确（文中承认），可能受限于 fMRI 信号本身的分辨率
依赖预训练编码器：V2C 映射依赖 Beliy et al. 的脑编码器质量，聚类质量影响整个流水线
DIP 推理开销：每张图像的低级重建需独立优化 DIP 网络，推理时间较长
数据集单一：主要在 NSD 数据集验证，虽有 NSD Synthetic 的 OOD 测试但未验证其他 fMRI 数据集
被试数量有限：仅 4 个被试（S1/2/5/7），个体差异的泛化性有待更大规模验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ (脑启发式功能聚类、局部化特征预测、DIP低级分支均为首创)
实验充分度: ⭐⭐⭐⭐ (全面指标对比，迁移学习分析充分，但仅一个数据集)
写作质量: ⭐⭐⭐⭐⭐ (结构清晰，图示优秀，方法对应直觉易懂)
价值: ⭐⭐⭐⭐⭐ (大幅推进 fMRI 图像重建 SOTA，1小时迁移有重要临床意义)