UMBRAE: Unified Multimodal Brain Decoding¶
会议: ECCV 2024
arXiv: 2404.07202
代码: https://weihaox.github.io/UMBRAE (有)
领域: 多模态VLM
关键词: 脑信号解码, fMRI, 跨被试训练, 多模态LLM, 脑-视觉对齐
一句话总结¶
提出UMBRAE,通过通用脑编码器将fMRI信号与图像特征对齐后送入冻结的MLLM,实现多模态脑解码(描述、定位、检索、视觉重建),并创新性地引入跨被试训练策略,使单一模型服务多个被试且优于单被试模型。
研究背景与动机¶
- 领域现状:脑信号解码研究近年取得进展,可将fMRI信号解码为图像(MindEye等)、视频或文本,但局限于单一模态输出。
- 现有痛点:(a) 单模态解码是有损表示——文本丢失空间位置信息,图像重建是欠定问题且缺乏场景结构显式表达;(b) 每个被试需要单独训练模型,因为不同大脑的激活模式存在结构和功能差异。
- 核心矛盾:脑信号包含丰富的多模态信息(语义概念+空间位置+物体关系),但现有方法只能解码为单一模态。被试特异性训练无法利用多被试数据的互补性。
- 本文要解决什么:(a) 实现从脑信号到多模态表示的统一解码;(b) 训练一个跨被试的通用模型。
- 切入角度:将脑信号与预训练图像编码器的中间特征对齐,然后利用MLLM的多任务能力实现不同粒度的解码。
- 核心idea一句话:脑信号对齐到图像特征空间后,可直接复用MLLM的多模态理解能力。
方法详解¶
整体框架¶
UMBRAE由三部分组成:(1) 脑编码器(被试特定tokenizer + 通用perceive编码器),将fMRI映射为固定长度的脑token;(2) 多模态对齐模块,将脑token与CLIP图像特征对齐;(3) 冻结的MLLM(如Shikra/LLaVA),通过prompt接口执行不同任务。
关键设计¶
1. 脑编码器架构 - 做什么:将不同被试的变长fMRI信号编码为统一的固定长度token序列 - 核心思路:每个被试一个轻量级tokenizer + 一个共享的perceive编码器(Transformer交叉注意力);每个被试有可学习的subject token (5x1024) - 设计动机:被试间的脑结构差异通过专用tokenizer处理,通用认知模式通过共享编码器捕获
2. 跨被试训练策略 - 做什么:在单个模型中联合训练多个被试的数据 - 核心思路:每个batch中50%来自同一被试,其余均匀来自其他被试 - 设计动机:关键发现——跨被试模型反而优于单被试模型,说明存在可迁移的脑活动模式
3. 与图像中间特征对齐 - 做什么:将脑特征与CLIP ViT-L/14倒数第二层特征对齐(16x16x1024) - 核心思路:简单的MSE重建损失 ℒ_rec = E[||V(v) - B(b)||²] - 设计动机:中间特征同时保留语义和空间信息,可直接送入MLLM的adapter
4. 脑prompting接口
- 做什么:不同任务用不同prompt模板——描述用"Describe this image",定位用"Locate
5. 弱监督新被试适应 - 做什么:用少量新被试数据快速适应 - 核心思路:冻结perceive编码器,仅训练新被试的tokenizer - 设计动机:跨被试训练已学到通用模式,新被试只需学习"翻译"格式
损失函数 / 训练策略¶
- 训练损失:MSE重建损失对齐脑特征与图像特征
- 优化器:AdamW,β1=0.9, β2=0.95, weight decay=0.01
- 学习率:one-cycle scheduler, 初始3e-4
- 训练规模:单张A100,240 epoch,batch size 256,约12小时
- 数据:NSD数据集,4个被试各24,980训练样本,982测试样本
实验关键数据¶
主实验¶
| 方法 | BLEU1 | METEOR | CIDEr | SPICE | CLIP-S |
|---|---|---|---|---|---|
| SDRecon | 36.21 | 10.03 | 13.83 | 5.02 | 61.07 |
| OneLLM | 47.04 | 13.55 | 22.99 | 6.26 | 54.80 |
| BrainCap | 55.96 | 16.68 | 41.30 | 9.06 | 64.31 |
| UMBRAE-S1 | 57.63 | 最优 | 最优 | 最优 | 65.00+ |
| UMBRAE | 最优 | 最优 | 最优 | 最优 | 最优 |
消融实验¶
| 设置 | 效果 |
|---|---|
| 单被试训练(UMBRAE-S1) | 基线 |
| 跨被试训练(UMBRAE) | 优于单被试,不增加训练时间 |
| 弱监督适应(10%数据) | 仍能达到合理性能 |
| 7B vs 13B LLM | 13B进一步提升 |
关键发现¶
- 跨被试优于单被试:联合训练利用了被试间的共享神经模式,提升了泛化
- UMBRAE首次实现直接脑信号定位(brain grounding),接近用真实图像的基线,快10倍以上
- 简单MSE对齐图像中间特征即可恢复语义和空间信息,无需对比学习或扩散prior
- 弱监督适应仅需少量数据即可扩展到新被试
亮点与洞察¶
- 跨被试训练的反直觉结论:神经科学认为大脑差异显著,但实验证明共享训练更好,暗示人类认知存在更深层的通用模式
- 对齐目标极简:仅靠MSE对齐脑特征与图像中间特征,就能解锁MLLM全部能力
- BrainHub基准:首个综合性脑理解评测基准,扩展NSD支持captioning、grounding、retrieval多任务
- 模型无关设计:方法可与任意图像编码器、LLM和MLLM组合
局限性 / 可改进方向¶
- fMRI设备昂贵不便携,限制实际应用
- NSD数据集规模有限(约25K/被试),更大规模数据能否进一步提升
- 当前定位精度受fMRI空间分辨率限制
- 仅4个被试,更大规模扩展性待验证
- 视觉重建质量依赖下游生成模型
相关工作与启发¶
- MindEye/BrainDiffuser:单模态视觉重建,UMBRAE扩展到多模态解码
- OneLLM:统一多模态编码器包含脑信号,但需海量数据和计算资源
- Shikra/LLaVA:MLLM基座,UMBRAE证明脑信号可"伪装"成图像特征被MLLM理解
- 启发:脑信号本质是自然图像的一种"编码",好的解码器只需学映射到已有表征空间
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (首个统一多模态脑解码+跨被试训练)
- 技术深度: ⭐⭐⭐⭐ (架构设计合理,跨被试采样策略有理论动机)
- 实验充分性: ⭐⭐⭐⭐⭐ (多任务评测+BrainHub基准+消融全面)
- 写作质量: ⭐⭐⭐⭐ (问题动机清晰,方法展示直观)
- 影响力: ⭐⭐⭐⭐ (脑机接口与多模态学习交叉领域有重要价值)