跳转至

UMBRAE: Unified Multimodal Brain Decoding

会议: ECCV 2024
arXiv: 2404.07202
代码: https://weihaox.github.io/UMBRAE (有)
领域: 多模态VLM
关键词: 脑信号解码, fMRI, 跨被试训练, 多模态LLM, 脑-视觉对齐

一句话总结

提出UMBRAE,通过通用脑编码器将fMRI信号与图像特征对齐后送入冻结的MLLM,实现多模态脑解码(描述、定位、检索、视觉重建),并创新性地引入跨被试训练策略,使单一模型服务多个被试且优于单被试模型。

研究背景与动机

  1. 领域现状:脑信号解码研究近年取得进展,可将fMRI信号解码为图像(MindEye等)、视频或文本,但局限于单一模态输出。
  2. 现有痛点:(a) 单模态解码是有损表示——文本丢失空间位置信息,图像重建是欠定问题且缺乏场景结构显式表达;(b) 每个被试需要单独训练模型,因为不同大脑的激活模式存在结构和功能差异。
  3. 核心矛盾:脑信号包含丰富的多模态信息(语义概念+空间位置+物体关系),但现有方法只能解码为单一模态。被试特异性训练无法利用多被试数据的互补性。
  4. 本文要解决什么:(a) 实现从脑信号到多模态表示的统一解码;(b) 训练一个跨被试的通用模型。
  5. 切入角度:将脑信号与预训练图像编码器的中间特征对齐,然后利用MLLM的多任务能力实现不同粒度的解码。
  6. 核心idea一句话:脑信号对齐到图像特征空间后,可直接复用MLLM的多模态理解能力。

方法详解

整体框架

UMBRAE由三部分组成:(1) 脑编码器(被试特定tokenizer + 通用perceive编码器),将fMRI映射为固定长度的脑token;(2) 多模态对齐模块,将脑token与CLIP图像特征对齐;(3) 冻结的MLLM(如Shikra/LLaVA),通过prompt接口执行不同任务。

关键设计

1. 脑编码器架构 - 做什么:将不同被试的变长fMRI信号编码为统一的固定长度token序列 - 核心思路:每个被试一个轻量级tokenizer + 一个共享的perceive编码器(Transformer交叉注意力);每个被试有可学习的subject token (5x1024) - 设计动机:被试间的脑结构差异通过专用tokenizer处理,通用认知模式通过共享编码器捕获

2. 跨被试训练策略 - 做什么:在单个模型中联合训练多个被试的数据 - 核心思路:每个batch中50%来自同一被试,其余均匀来自其他被试 - 设计动机:关键发现——跨被试模型反而优于单被试模型,说明存在可迁移的脑活动模式

3. 与图像中间特征对齐 - 做什么:将脑特征与CLIP ViT-L/14倒数第二层特征对齐(16x16x1024) - 核心思路:简单的MSE重建损失 ℒ_rec = E[||V(v) - B(b)||²] - 设计动机:中间特征同时保留语义和空间信息,可直接送入MLLM的adapter

4. 脑prompting接口 - 做什么:不同任务用不同prompt模板——描述用"Describe this image",定位用"Locate " - 核心思路:脑特征替代图像特征嵌入prompt - 设计动机:MLLM的指令遵循能力天然支持多任务切换

5. 弱监督新被试适应 - 做什么:用少量新被试数据快速适应 - 核心思路:冻结perceive编码器,仅训练新被试的tokenizer - 设计动机:跨被试训练已学到通用模式,新被试只需学习"翻译"格式

损失函数 / 训练策略

  • 训练损失:MSE重建损失对齐脑特征与图像特征
  • 优化器:AdamW,β1=0.9, β2=0.95, weight decay=0.01
  • 学习率:one-cycle scheduler, 初始3e-4
  • 训练规模:单张A100,240 epoch,batch size 256,约12小时
  • 数据:NSD数据集,4个被试各24,980训练样本,982测试样本

实验关键数据

主实验

方法 BLEU1 METEOR CIDEr SPICE CLIP-S
SDRecon 36.21 10.03 13.83 5.02 61.07
OneLLM 47.04 13.55 22.99 6.26 54.80
BrainCap 55.96 16.68 41.30 9.06 64.31
UMBRAE-S1 57.63 最优 最优 最优 65.00+
UMBRAE 最优 最优 最优 最优 最优

消融实验

设置 效果
单被试训练(UMBRAE-S1) 基线
跨被试训练(UMBRAE) 优于单被试,不增加训练时间
弱监督适应(10%数据) 仍能达到合理性能
7B vs 13B LLM 13B进一步提升

关键发现

  1. 跨被试优于单被试:联合训练利用了被试间的共享神经模式,提升了泛化
  2. UMBRAE首次实现直接脑信号定位(brain grounding),接近用真实图像的基线,快10倍以上
  3. 简单MSE对齐图像中间特征即可恢复语义和空间信息,无需对比学习或扩散prior
  4. 弱监督适应仅需少量数据即可扩展到新被试

亮点与洞察

  • 跨被试训练的反直觉结论:神经科学认为大脑差异显著,但实验证明共享训练更好,暗示人类认知存在更深层的通用模式
  • 对齐目标极简:仅靠MSE对齐脑特征与图像中间特征,就能解锁MLLM全部能力
  • BrainHub基准:首个综合性脑理解评测基准,扩展NSD支持captioning、grounding、retrieval多任务
  • 模型无关设计:方法可与任意图像编码器、LLM和MLLM组合

局限性 / 可改进方向

  1. fMRI设备昂贵不便携,限制实际应用
  2. NSD数据集规模有限(约25K/被试),更大规模数据能否进一步提升
  3. 当前定位精度受fMRI空间分辨率限制
  4. 仅4个被试,更大规模扩展性待验证
  5. 视觉重建质量依赖下游生成模型

相关工作与启发

  • MindEye/BrainDiffuser:单模态视觉重建,UMBRAE扩展到多模态解码
  • OneLLM:统一多模态编码器包含脑信号,但需海量数据和计算资源
  • Shikra/LLaVA:MLLM基座,UMBRAE证明脑信号可"伪装"成图像特征被MLLM理解
  • 启发:脑信号本质是自然图像的一种"编码",好的解码器只需学映射到已有表征空间

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (首个统一多模态脑解码+跨被试训练)
  • 技术深度: ⭐⭐⭐⭐ (架构设计合理,跨被试采样策略有理论动机)
  • 实验充分性: ⭐⭐⭐⭐⭐ (多任务评测+BrainHub基准+消融全面)
  • 写作质量: ⭐⭐⭐⭐ (问题动机清晰,方法展示直观)
  • 影响力: ⭐⭐⭐⭐ (脑机接口与多模态学习交叉领域有重要价值)