Beyond Brain Decoding: Visual-Semantic Reconstructions to Mental Creation Extension Based on fMRI¶

会议: ICCV 2025
arXiv: 无预印本（仅CVF Open Access）
CVF: 论文页面 / PDF
代码: 无公开代码
作者: Haodong Jing, Dongyao Jiang, Yongqiang Ma, Haibo Hua, Bo Huang, Nanning Zheng（西安交通大学）
领域: 医学图像/脑科学
关键词: fMRI脑解码, 视觉-语义重建, 心理创造, 大语言模型, 多模态脑架构

一句话总结¶

提出NeuroCreat——一种结合LLM视觉与文本能力的脑多模态架构，将fMRI解码从单一的视觉刺激重建扩展到图像重建 + 文本描述（captioning）+ 心理创造（creation）三个层次，通过Prompt Variant Alignment模块有效弥合fMRI低分辨率信号与高级语义表征之间的鸿沟。

背景与动机¶

从fMRI信号中解码视觉信息是理解大脑如何表征世界的重要途径，也是通用人工智能（AGI）的前沿领域。当前研究的核心局限在于：

目标单一：主流方法（MindEye、MindEye2、Brain-Diffuser、Unibrain等）几乎全部聚焦于「从fMRI重建所见图像」这一单一任务，很少探索从脑信号生成文字描述或创造全新内容
语义利用不足：大多方法将fMRI映射到CLIP或SDXL潜空间进行图像重建，但缺乏对高层语义的细粒度挖掘，尤其在文本生成方面能力有限
离"思维创造"尚远：人类大脑不仅能重现所见，还能从记忆和经验中创造全新的心理图像——这种"创造性"能力在现有脑解码方法中几乎未被探索

同组前序工作"See Through Their Minds"（arXiv:2403.06361）探索了跨被试fMRI解码的可迁移神经表征学习，奠定了本文进一步挖掘fMRI丰富语义内容的基础。

核心问题¶

如何将fMRI脑解码从单一的视觉刺激重建，扩展到多层次、多模态的脑信号理解——包括视觉重建、语义描述和心理创造？

具体而言需解决： - fMRI信号分辨率低、噪声大，如何提取细粒度语义信息？ - 不同输出模态（图像 vs 文本 vs 创造性内容）之间的差异如何处理？ - 如何利用LLM的强大多模态能力来增强脑解码？

方法详解¶

整体框架¶

NeuroCreat是一个复用式神经解码模型（multiplexed neural decoding model），核心思路是将LLM与脑解码有效集成，实现三个层次的输出：

视觉重建（Reconstruction）：从fMRI重建对应的视觉刺激图像
语义描述（Captioning）：从fMRI生成对应图像的文本描述
心理创造（Creation）：从fMRI生成未见过的新内容（embodied implementation）

整体流程大致为： - fMRI编码器：将原始fMRI体素信号编码为紧凑的神经特征表示 - Prompt Variant Alignment (PVA)：对齐并区分不同模态的差异 - LLM解码器：利用LLM的视觉和文本能力，将对齐后的神经表征转化为不同模态的输出

关键设计¶

1. Prompt Variant Alignment (PVA) 模块¶

这是NeuroCreat的核心技术创新： - 动机：fMRI信号的低分辨率与生成目标（精细图像/准确文本）之间存在巨大鸿沟；不同输出模态对神经表征的需求不同 - 机制：设计可变prompt来分离不同模态的差异，为每种输出任务构建适配的对齐方式 - 效果：有效减轻fMRI低分辨率和模态间过度耦合的问题

2. LLM集成策略¶

利用LLM（推测为Vicuna/LLaMA系列）的视觉和文本能力
将fMRI编码的神经特征作为LLM的输入条件
LLM同时服务于captioning和creation任务，实现参数共享和知识迁移

3. 多任务复用设计¶

三个任务共享fMRI编码器和LLM骨架
通过PVA模块的不同prompt variant实现任务特异性
"创造"任务作为全新扩展——在NSD数据集上首次建立此类基准

损失函数 / 训练策略¶

具体损失函数组合需参考原文，推测包含： - 重建损失：像素级和/或感知损失（用于图像重建路径） - 语义对齐损失：CLIP空间对齐或对比学习损失 - 文本生成损失：交叉熵/自回归语言建模损失（用于captioning路径） - 可能采用分阶段训练策略

实验关键数据¶

数据集¶

NSD（Natural Scenes Dataset）：最主流的高质量fMRI视觉解码数据集，7T fMRI，8个被试观看自然图像
GOD（Generic Object Decoding）：另一常用fMRI解码数据集

图像重建结果¶

论文在NSD和GOD数据集上与先前重建方法进行了比较。从snippet中可知"NeuroCreat not only achieves the optimal image..."——在多项重建指标上达到最优。

任务	数据集	对比方法	结论
图像重建	NSD, GOD	先前SOTA方法	达到最优图像重建效果
Captioning	NSD	多种方法	与多种方法进行了captioning对比
Creation	NSD	无先前工作（首次）	首次在NSD上建立creation基准

注：原文完整的定量数据（PixCorr, SSIM, FID, CLIP-Score等具体数值）需参阅PDF表格。

消融实验要点¶

PVA模块的有效性验证（移除PVA后各任务性能下降）
不同模态输出的prompt variant设计对比
LLM集成方式的消融

亮点¶

问题定位新颖：首次明确将fMRI脑解码从"重建所见"扩展到"描述所见 + 创造未见"，对齐了人类认知的层级——感知 → 理解 → 想象
PVA模块设计巧妙：通过可变prompt对齐不同模态差异，优雅地解决了"一个编码器服务多种输出"的挑战
首创"心理创造"任务：在NSD上首次建立creation基准，为脑机接口的创造性应用开辟了新方向
LLM + 脑解码的有效集成：展示了大语言模型在脑信号理解中的潜力，不仅限于图像重建
统一框架：单一模型同时完成重建、描述、创造三个任务

局限性 / 可改进方向¶

无公开代码：严重限制可复现性和社区跟进
无arXiv预印本：仅CVF Open Access，传播和引用受限
fMRI固有限制：时间/空间分辨率低、被试特异性强、数据采集昂贵，限制了方法的实用性
"创造"的定义和评估：如何定义和量化"心理创造"的质量缺乏标准化度量
跨被试泛化：论文是否解决了跨被试适应问题存疑（同组前序工作专门探索了此问题）
LLM选择：具体使用哪个LLM（规模/版本）及其对结果的影响未知
计算开销：整合LLM的脑解码框架可能需要大量计算资源

与相关工作的对比¶

方法	重建	Captioning	Creation	LLM	特点
NeuroCreat (本文)	✅	✅	✅	✅	首个三合一脑解码框架
MindEye2	✅	❌	❌	❌	1小时数据达到SOTA重建
Unibrain	✅	✅	❌	❌	统一扩散模型做重建+captioning
Brain-Streams	✅	❌	❌	❌	多模态引导的fMRI-to-Image
BrainSCUBA	❌	✅	❌	✅	体素级语义 captioning
See Through Their Minds	✅	✅	❌	❌	跨被试迁移学习

NeuroCreat的核心区分点在于：(1) "creation"是全新任务维度；(2) 通过PVA模块统一处理多模态输出；(3) 深度集成LLM而非仅使用CLIP。

启发与关联¶

Prompt作为模态适配器：PVA的设计思想（用prompt variant区分不同输出模态）可迁移到其他多任务多模态场景
LLM + 信号处理：将LLM应用于非文本信号（fMRI）的方式对理解LLM作为通用多模态推理引擎有启发
评估范式思考："创造"的评估是开放问题——语义合理性？新颖性？与个体经验的一致性？
脑机接口前景：如果能从脑信号创造新内容，对辅助通信、创意增强等应用有深远影响
与视觉基础模型的衔接：fMRI解码的进步可能反过来帮助理解视觉基础模型的内部表征

评分¶

新颖性: ⭐⭐⭐⭐⭐ — "重建→描述→创造"的三层级扩展非常有远见，creation任务是首创
实验充分度: ⭐⭐⭐⭐ — 在NSD和GOD上对比多种方法，含captioning和首创的creation评估；但缺代码影响验证
写作质量: ⭐⭐⭐⭐ — 问题动机清晰，框架设计逻辑性强
对我的价值: ⭐⭐⭐ — 脑解码领域有启发，但距离核心研究方向较远