跳转至

Brain-tuning Improves Generalizability and Efficiency of Brain Alignment in Speech Models

会议: NEURIPS2025
arXiv: 2510.21520
代码: bridge-ai-neuro/multi-brain-tuning
领域: medical_imaging
关键词: brain-tuning, fMRI, speech model, brain alignment, multi-participant, LoRA

一句话总结

提出 Multi-brain-tuning 方法,通过联合多个被试的 fMRI 数据微调预训练语音模型,将脑对齐所需数据量降低 5 倍,同时脑对齐度提升最高 50%,并可泛化到全新被试和数据集。

背景与动机

预训练语言模型(LM)在预测人类自然语言处理时的脑活动(如 fMRI 信号)方面表现突出,被视为研究大脑语言处理的潜力工具。然而,现有的脑对齐(brain alignment)方法存在两大瓶颈:

  1. 数据效率低:对每位新被试都需要大量 fMRI 数据才能可靠估计模型与脑的对齐程度
  2. 被试依赖性强:每位被试需独立训练模型,无法跨被试泛化,也难以支持群体水平分析

即便近期的 brain-tuning 和 BrainWavLM 等方法已将脑数据引入模型训练,仍然是逐被试构建的,缺乏可扩展性。本文正是针对这一瓶颈,提出可扩展的多被试联合微调方案。

核心问题

如何设计一种脑微调方法,使其能够:(1)大幅减少新被试所需的 fMRI 数据量;(2)跨被试泛化而非被试专属;(3)不损害模型在下游语义任务中的性能?

方法详解

预训练语音模型

采用两大主流自监督语音 Transformer 家族作为起点:

  • Wav2Vec2.0:约 90M 参数,12 层 Transformer,embedding 维度 768
  • HuBERT:结构参数与 Wav2Vec2.0 可比

两者均在约 960 小时的独立音频上预训练,与 fMRI 数据集无交集。

数据集

  • Moth Radio Hour(主训练/评估):8 位被试听自传故事的 fMRI 记录,其中 3 位有约 16.1 小时(84 个故事),其余有约 6.4 小时(27 个故事),TR=2.0s
  • Narratives(跨数据集泛化测试):16 位被试听一个 56 分钟虚构短篇故事,TR=1.5s

空间对齐

跨被试的解剖差异是联合训练的核心挑战。本文通过 FreeSurfer v7 将每位被试投影至公共皮层表面,再用 Glasser et al. 的脑区分区图谱解析听觉区(A1–A4)和晚期语言 ROI(如双侧下额回、角回、前后颞叶等),最终得到约 30K 个体素。

Multi-brain-tuning 核心流程

  1. 数据准备:将音频切为 2s 片段,前拼 8s 上下文以补偿血流动力学延迟,形成 (10s 音频, 1 个 fMRI TR) 的配对样本
  2. 模型架构:在语音模型顶部添加 average pooling 层 + 统一投影头(unified projection head)
  3. 训练策略:对同一刺激批次 \(S\),依次对每位被试 \(P_i\) 的 fMRI 响应计算并反向传播 L₂ 损失;同一刺激作锚点,不要求所有被试共享完全相同的刺激集
  4. LoRA 微调:使用 rank=8 的 LoRA(仅占总参数 0.625%),冻结特征提取器,仅更新 LoRA 参数和投影头
  5. 训练设置:batch size 128,学习率 \(1 \times 10^{-4}\)(10% warmup + linear decay),30 个 epoch,约 6 小时(2× NVIDIA A40)

设计选择的关键发现

  • 统一投影头优于被试专属投影头和共享响应建模(SRM)
  • 逐被试独立计算损失优于平均 fMRI 或平均损失(避免丢弃个体信息信号)
  • L₂ 损失随数据量增长比 Correlation loss 和 Cosine+L₂ loss 扩展性更好

对比基线

  • Single-brain-tuned:仅用单被试数据微调,同架构同设置
  • LLM-tuned:用 LLaMA2-7B 表征替代脑响应进行微调
  • Stimulus-tuned:用原始自监督目标在刺激音频上继续微调

实验关键数据

脑对齐效率

  • Multi-brain-tuned 模型仅需 1/5 的编码数据即可达到预训练模型用全量数据的最佳脑对齐,而 Single-brain-tuned 需约 2/5
  • 使用全量编码数据时,脑对齐度相比预训练最多提升 50%
  • 该优势在训练被试和未见被试上均一致,且在 Wav2Vec2.0 和 HuBERT 两个模型家族中均成立

泛化能力

  • 随微调数据量增加,Multi-brain-tuned 在未见被试上持续上升,而 Single-brain-tuned 在约 6 小时后趋于饱和
  • 脑图可视化显示,改善广泛分布于额叶和顶叶区域
  • 跨数据集测试(Moth→Narratives):Multi-brain-tuned 的提升接近于在 Narratives 数据上直接训练的模型

下游性能

  • 在 Phoneme Prediction 和 Phonetic Sentence Type Prediction 两个任务上,brain-tuned 模型从不低于预训练模型(排除灾难性遗忘)
  • Multi-brain-tuned 随数据增长最终匹配 LLM-tuned 基线性能

消融实验

  • LoRA rank 超过 8 后提升不再显著,甚至全模型微调也不优于 rank-8
  • L₂ 损失在数据量充足时明显优于 Correlation loss 和 Cosine+L₂ loss;但在小数据(≤6h)下 Correlation loss 略优

亮点

  1. 简洁高效的方案:统一投影头 + LoRA rank-8 即可实现跨被试泛化,无需被试专属网络
  2. 双向收益:brain-tuning 既提升脑对齐又改善下游语义任务,展现神经科学与 AI 的双向价值
  3. 实用的 5 倍数据节约:大幅降低了对新被试的 fMRI 数据需求,有望推动群体水平认知研究
  4. 强跨数据集泛化:在完全不同的 Narratives 数据上仍有显著提升
  5. 系统的消融和基线对比:涵盖训练目标、LoRA rank、数据量扩展等多个维度

局限性 / 可改进方向

  1. 仅关注语言相关脑区,未扩展到非语言区域或特定功能脑区
  2. 实验仅限英语,受限于大规模公开 fMRI 数据集的语言覆盖
  3. 训练损失的设计仍有探索空间,尤其在小数据场景下 Correlation loss 表现更好,暗示可能存在更优的混合损失
  4. 空间对齐依赖 FreeSurfer 和 Glasser 图谱,可能在非标准脑结构上不够灵活
  5. 虽然被试数量扩展有上升趋势,但目前验证规模仅 3 位训练被试 + 5 位评估被试

与相关工作的对比

方法 多被试 泛化新被试 利用预训练模型 语音领域
Brain-tuning (Moussa et al., 2025) 有限
BrainWavLM (Vattikonda et al., 2025) 有限 ✓ (LoRA)
Hyperalignment (Haxby et al., 2020)
脑解码方法 (Défossez et al., 2023) 有限
本文 Multi-brain-tuning ✓ (LoRA)

本文的核心差异在于:在利用预训练语音模型的基础上,通过统一投影头联合多被试训练,同时实现了跨被试泛化和脑对齐提升,且不引入被试专属参数。

启发与关联

  • 统一投影头 + 锚定刺激的训练策略思路可迁移至其他多受试者/多模态对齐场景(如多患者医学影像、多用户 BCI)
  • LoRA rank-8 即够用的发现呼应了参数高效微调领域的一般规律,暗示脑活动中的可学习信号维度有限
  • L₂ 损失优于相关性损失的结论在数据充足时成立,这一模式可能对其他噪声信号回归任务也有参考价值
  • 双向收益(脑数据改善模型语义能力)为"用认知信号增强 AI"的研究路线提供了直接实验证据

评分

  • 新颖性: ⭐⭐⭐⭐ (多被试联合 brain-tuning 的首次系统探索)
  • 实验充分度: ⭐⭐⭐⭐⭐ (两个模型家族、多个基线、详尽消融、跨数据集验证)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,逻辑流畅)
  • 价值: ⭐⭐⭐⭐ (对认知神经科学与语音 AI 交叉领域有实质推动)