Brain-tuning Improves Generalizability and Efficiency of Brain Alignment in Speech Models¶

会议: NEURIPS2025
arXiv: 2510.21520
代码: bridge-ai-neuro/multi-brain-tuning
领域: medical_imaging
关键词: brain-tuning, fMRI, speech model, brain alignment, multi-participant, LoRA

一句话总结¶

提出 Multi-brain-tuning 方法，通过联合多个被试的 fMRI 数据微调预训练语音模型，将脑对齐所需数据量降低 5 倍，同时脑对齐度提升最高 50%，并可泛化到全新被试和数据集。

背景与动机¶

预训练语言模型（LM）在预测人类自然语言处理时的脑活动（如 fMRI 信号）方面表现突出，被视为研究大脑语言处理的潜力工具。然而，现有的脑对齐（brain alignment）方法存在两大瓶颈：

数据效率低：对每位新被试都需要大量 fMRI 数据才能可靠估计模型与脑的对齐程度
被试依赖性强：每位被试需独立训练模型，无法跨被试泛化，也难以支持群体水平分析

即便近期的 brain-tuning 和 BrainWavLM 等方法已将脑数据引入模型训练，仍然是逐被试构建的，缺乏可扩展性。本文正是针对这一瓶颈，提出可扩展的多被试联合微调方案。

核心问题¶

如何设计一种脑微调方法，使其能够：（1）大幅减少新被试所需的 fMRI 数据量；（2）跨被试泛化而非被试专属；（3）不损害模型在下游语义任务中的性能？

方法详解¶

预训练语音模型¶

采用两大主流自监督语音 Transformer 家族作为起点：

Wav2Vec2.0：约 90M 参数，12 层 Transformer，embedding 维度 768
HuBERT：结构参数与 Wav2Vec2.0 可比

两者均在约 960 小时的独立音频上预训练，与 fMRI 数据集无交集。

数据集¶

Moth Radio Hour（主训练/评估）：8 位被试听自传故事的 fMRI 记录，其中 3 位有约 16.1 小时（84 个故事），其余有约 6.4 小时（27 个故事），TR=2.0s
Narratives（跨数据集泛化测试）：16 位被试听一个 56 分钟虚构短篇故事，TR=1.5s

空间对齐¶

跨被试的解剖差异是联合训练的核心挑战。本文通过 FreeSurfer v7 将每位被试投影至公共皮层表面，再用 Glasser et al. 的脑区分区图谱解析听觉区（A1–A4）和晚期语言 ROI（如双侧下额回、角回、前后颞叶等），最终得到约 30K 个体素。

Multi-brain-tuning 核心流程¶

数据准备：将音频切为 2s 片段，前拼 8s 上下文以补偿血流动力学延迟，形成 (10s 音频, 1 个 fMRI TR) 的配对样本
模型架构：在语音模型顶部添加 average pooling 层 + 统一投影头（unified projection head）
训练策略：对同一刺激批次 \(S\)，依次对每位被试 \(P_i\) 的 fMRI 响应计算并反向传播 L₂ 损失；同一刺激作锚点，不要求所有被试共享完全相同的刺激集
LoRA 微调：使用 rank=8 的 LoRA（仅占总参数 0.625%），冻结特征提取器，仅更新 LoRA 参数和投影头
训练设置：batch size 128，学习率 \(1 \times 10^{-4}\)（10% warmup + linear decay），30 个 epoch，约 6 小时（2× NVIDIA A40）

设计选择的关键发现¶

统一投影头优于被试专属投影头和共享响应建模（SRM）
逐被试独立计算损失优于平均 fMRI 或平均损失（避免丢弃个体信息信号）
L₂ 损失随数据量增长比 Correlation loss 和 Cosine+L₂ loss 扩展性更好

对比基线¶

Single-brain-tuned：仅用单被试数据微调，同架构同设置
LLM-tuned：用 LLaMA2-7B 表征替代脑响应进行微调
Stimulus-tuned：用原始自监督目标在刺激音频上继续微调

实验关键数据¶

脑对齐效率¶

Multi-brain-tuned 模型仅需 1/5 的编码数据即可达到预训练模型用全量数据的最佳脑对齐，而 Single-brain-tuned 需约 2/5
使用全量编码数据时，脑对齐度相比预训练最多提升 50%
该优势在训练被试和未见被试上均一致，且在 Wav2Vec2.0 和 HuBERT 两个模型家族中均成立

泛化能力¶

随微调数据量增加，Multi-brain-tuned 在未见被试上持续上升，而 Single-brain-tuned 在约 6 小时后趋于饱和
脑图可视化显示，改善广泛分布于额叶和顶叶区域
跨数据集测试（Moth→Narratives）：Multi-brain-tuned 的提升接近于在 Narratives 数据上直接训练的模型

下游性能¶

在 Phoneme Prediction 和 Phonetic Sentence Type Prediction 两个任务上，brain-tuned 模型从不低于预训练模型（排除灾难性遗忘）
Multi-brain-tuned 随数据增长最终匹配 LLM-tuned 基线性能

消融实验¶

LoRA rank 超过 8 后提升不再显著，甚至全模型微调也不优于 rank-8
L₂ 损失在数据量充足时明显优于 Correlation loss 和 Cosine+L₂ loss；但在小数据（≤6h）下 Correlation loss 略优

亮点¶

简洁高效的方案：统一投影头 + LoRA rank-8 即可实现跨被试泛化，无需被试专属网络
双向收益：brain-tuning 既提升脑对齐又改善下游语义任务，展现神经科学与 AI 的双向价值
实用的 5 倍数据节约：大幅降低了对新被试的 fMRI 数据需求，有望推动群体水平认知研究
强跨数据集泛化：在完全不同的 Narratives 数据上仍有显著提升
系统的消融和基线对比：涵盖训练目标、LoRA rank、数据量扩展等多个维度

局限性 / 可改进方向¶

仅关注语言相关脑区，未扩展到非语言区域或特定功能脑区
实验仅限英语，受限于大规模公开 fMRI 数据集的语言覆盖
训练损失的设计仍有探索空间，尤其在小数据场景下 Correlation loss 表现更好，暗示可能存在更优的混合损失
空间对齐依赖 FreeSurfer 和 Glasser 图谱，可能在非标准脑结构上不够灵活
虽然被试数量扩展有上升趋势，但目前验证规模仅 3 位训练被试 + 5 位评估被试

与相关工作的对比¶

方法	多被试	泛化新被试	利用预训练模型	语音领域
Brain-tuning (Moussa et al., 2025)	✗	有限	✓	✓
BrainWavLM (Vattikonda et al., 2025)	✗	有限	✓ (LoRA)	✓
Hyperalignment (Haxby et al., 2020)	✓	✓	✗	✗
脑解码方法 (Défossez et al., 2023)	✓	有限	✗	✓
本文 Multi-brain-tuning	✓	✓	✓ (LoRA)	✓

本文的核心差异在于：在利用预训练语音模型的基础上，通过统一投影头联合多被试训练，同时实现了跨被试泛化和脑对齐提升，且不引入被试专属参数。

启发与关联¶

统一投影头 + 锚定刺激的训练策略思路可迁移至其他多受试者/多模态对齐场景（如多患者医学影像、多用户 BCI）
LoRA rank-8 即够用的发现呼应了参数高效微调领域的一般规律，暗示脑活动中的可学习信号维度有限
L₂ 损失优于相关性损失的结论在数据充足时成立，这一模式可能对其他噪声信号回归任务也有参考价值
双向收益（脑数据改善模型语义能力）为"用认知信号增强 AI"的研究路线提供了直接实验证据

评分¶

新颖性: ⭐⭐⭐⭐ (多被试联合 brain-tuning 的首次系统探索)
实验充分度: ⭐⭐⭐⭐⭐ (两个模型家族、多个基线、详尽消融、跨数据集验证)
写作质量: ⭐⭐⭐⭐ (结构清晰，逻辑流畅)
价值: ⭐⭐⭐⭐ (对认知神经科学与语音 AI 交叉领域有实质推动)