UMBRAE: Unified Multimodal Brain Decoding¶

会议: ECCV 2024
arXiv: 2404.07202
代码: https://weihaox.github.io/UMBRAE (有)
领域: 多模态VLM
关键词: 脑信号解码, fMRI, 跨被试训练, 多模态LLM, 脑-视觉对齐

一句话总结¶

提出UMBRAE，通过通用脑编码器将fMRI信号与图像特征对齐后送入冻结的MLLM，实现多模态脑解码（描述、定位、检索、视觉重建），并创新性地引入跨被试训练策略，使单一模型服务多个被试且优于单被试模型。

研究背景与动机¶

领域现状：脑信号解码研究近年取得进展，可将fMRI信号解码为图像（MindEye等）、视频或文本，但局限于单一模态输出。
现有痛点：(a) 单模态解码是有损表示——文本丢失空间位置信息，图像重建是欠定问题且缺乏场景结构显式表达；(b) 每个被试需要单独训练模型，因为不同大脑的激活模式存在结构和功能差异。
核心矛盾：脑信号包含丰富的多模态信息（语义概念+空间位置+物体关系），但现有方法只能解码为单一模态。被试特异性训练无法利用多被试数据的互补性。
本文要解决什么：(a) 实现从脑信号到多模态表示的统一解码；(b) 训练一个跨被试的通用模型。
切入角度：将脑信号与预训练图像编码器的中间特征对齐，然后利用MLLM的多任务能力实现不同粒度的解码。
核心idea一句话：脑信号对齐到图像特征空间后，可直接复用MLLM的多模态理解能力。

方法详解¶

整体框架¶

UMBRAE由三部分组成：(1) 脑编码器（被试特定tokenizer + 通用perceive编码器），将fMRI映射为固定长度的脑token；(2) 多模态对齐模块，将脑token与CLIP图像特征对齐；(3) 冻结的MLLM（如Shikra/LLaVA），通过prompt接口执行不同任务。

关键设计¶

1. 脑编码器架构 - 做什么：将不同被试的变长fMRI信号编码为统一的固定长度token序列 - 核心思路：每个被试一个轻量级tokenizer + 一个共享的perceive编码器（Transformer交叉注意力）；每个被试有可学习的subject token (5x1024) - 设计动机：被试间的脑结构差异通过专用tokenizer处理，通用认知模式通过共享编码器捕获

2. 跨被试训练策略 - 做什么：在单个模型中联合训练多个被试的数据 - 核心思路：每个batch中50%来自同一被试，其余均匀来自其他被试 - 设计动机：关键发现——跨被试模型反而优于单被试模型，说明存在可迁移的脑活动模式

3. 与图像中间特征对齐 - 做什么：将脑特征与CLIP ViT-L/14倒数第二层特征对齐（16x16x1024） - 核心思路：简单的MSE重建损失 ℒ_rec = E[||V(v) - B(b)||²] - 设计动机：中间特征同时保留语义和空间信息，可直接送入MLLM的adapter

4. 脑prompting接口 - 做什么：不同任务用不同prompt模板——描述用"Describe this image"，定位用"Locate " - 核心思路：脑特征替代图像特征嵌入prompt - 设计动机：MLLM的指令遵循能力天然支持多任务切换

5. 弱监督新被试适应 - 做什么：用少量新被试数据快速适应 - 核心思路：冻结perceive编码器，仅训练新被试的tokenizer - 设计动机：跨被试训练已学到通用模式，新被试只需学习"翻译"格式

损失函数 / 训练策略¶

训练损失：MSE重建损失对齐脑特征与图像特征
优化器：AdamW，β1=0.9, β2=0.95, weight decay=0.01
学习率：one-cycle scheduler, 初始3e-4
训练规模：单张A100，240 epoch，batch size 256，约12小时
数据：NSD数据集，4个被试各24,980训练样本，982测试样本

实验关键数据¶

主实验¶

方法	BLEU1	METEOR	CIDEr	SPICE	CLIP-S
SDRecon	36.21	10.03	13.83	5.02	61.07
OneLLM	47.04	13.55	22.99	6.26	54.80
BrainCap	55.96	16.68	41.30	9.06	64.31
UMBRAE-S1	57.63	最优	最优	最优	65.00+
UMBRAE	最优	最优	最优	最优	最优

消融实验¶

设置	效果
单被试训练(UMBRAE-S1)	基线
跨被试训练(UMBRAE)	优于单被试，不增加训练时间
弱监督适应(10%数据)	仍能达到合理性能
7B vs 13B LLM	13B进一步提升

关键发现¶

跨被试优于单被试：联合训练利用了被试间的共享神经模式，提升了泛化
UMBRAE首次实现直接脑信号定位(brain grounding)，接近用真实图像的基线，快10倍以上
简单MSE对齐图像中间特征即可恢复语义和空间信息，无需对比学习或扩散prior
弱监督适应仅需少量数据即可扩展到新被试

亮点与洞察¶

跨被试训练的反直觉结论：神经科学认为大脑差异显著，但实验证明共享训练更好，暗示人类认知存在更深层的通用模式
对齐目标极简：仅靠MSE对齐脑特征与图像中间特征，就能解锁MLLM全部能力
BrainHub基准：首个综合性脑理解评测基准，扩展NSD支持captioning、grounding、retrieval多任务
模型无关设计：方法可与任意图像编码器、LLM和MLLM组合

局限性 / 可改进方向¶

fMRI设备昂贵不便携，限制实际应用
NSD数据集规模有限（约25K/被试），更大规模数据能否进一步提升
当前定位精度受fMRI空间分辨率限制
仅4个被试，更大规模扩展性待验证
视觉重建质量依赖下游生成模型

评分¶

新颖性: ⭐⭐⭐⭐⭐ (首个统一多模态脑解码+跨被试训练)
技术深度: ⭐⭐⭐⭐ (架构设计合理，跨被试采样策略有理论动机)
实验充分性: ⭐⭐⭐⭐⭐ (多任务评测+BrainHub基准+消融全面)
写作质量: ⭐⭐⭐⭐ (问题动机清晰，方法展示直观)
影响力: ⭐⭐⭐⭐ (脑机接口与多模态学习交叉领域有重要价值)