Let the Model Learn to Feel: Mode-Guided Tonality Injection for Symbolic Music Emotion Recognition¶

会议: AAAI 2026
arXiv: 2512.17946
代码: https://github.com/ZoeyHuang-paper/MoFi
领域: 音乐情感识别 / 符号音乐理解
关键词: symbolic music emotion recognition, MIDIBERT, mode injection, FiLM, music psychology

一句话总结¶

通过 MoGE 诊断策略系统发现 MIDIBERT 未有效编码调式-情感关联，提出 MoFi 注入框架通过 FiLM 机制将大调/小调先验注入 MIDIBERT 第 1 层（诊断确定的最弱情感信息层），在 EMOPIA 上准确率 75.2%（+11.8%），VGMIDI 上 59.1%（+11.8%），F1 提升 12.3%/15.5%。

研究背景与动机¶

符号音乐情感识别 (SMER) 是符号音乐理解的核心任务。MIDIBERT 等 Transformer 预训练模型在语义理解上表现出色，但在情感识别上存在根本缺陷：

问题	原因	影响
调式-情感关联缺失	MLM 预训练目标关注 token 重建，无显式激励学习调式	大调(快乐)/小调(悲伤)的核心音乐心理学规律未被编码
SMER 数据集极小	EMOPIA 仅 1087 clips，VGMIDI 仅 200 曲目	微调阶段难以从小数据中自动学到情感特征
黑箱微调	未诊断模型哪层缺什么知识就直接微调	注入策略缺乏针对性，可能在错误位置注入

音乐心理学基础：实证研究一致表明大调 → 高效价正向情绪（快乐、明快），小调 → 低效价负向情绪（悲伤、忧郁）。此关联对调性（key）相对不变：C 大调和 G 大调传达相似情感，决定因素是音程结构而非绝对音高。这一规律在文献中被 Kastner & Crowder、Gerardi & Gerken、Dalla Bella 等多组研究反复验证。

方法详解¶

整体框架¶

两阶段方法：(1) MoGE 诊断——通过数据增强实验和逐层探测，系统识别 MIDIBERT 的知识缺口和最佳注入位置；(2) MoFi 注入——在确定的目标层通过 FiLM 条件化模块注入调式先验。

关键设计¶

MoGE 诊断 — 数据增强实验
对 EMOPIA 执行保持调式的音高移调（单个八度内均匀移动所有音符，音程结构完全保持 → 调式不变）
结果：原始数据准确率 67.5% → 增强后 72.3%（+4.8%）
结论：MIDIBERT 未编码调式-情感关联，否则增强应无显著差异
MoGE 诊断 — 逐层探测
冻结 MIDIBERT 12 层全部参数，仅在每层前添加可训练的 self-attention + 分类头进行微调
发现：中间层性能最优，底层（第 1 层）情感信息最弱，高层特化于 MLM 任务
结论：第 1 层是注入知识的最佳目标位置
调式提取
使用 Krumhansl-Kessler (K-K) 算法从 MIDI 自动提取调式（认知心理学驱动，拟合人类听觉调性感知）
仅采用大调/小调二值分类（简化降噪，Dorian/Lydian 等罕见调式样本少且情感特征不一致）
输出为 one-hot 向量
MoFi — FiLM 注入
在 Compound Word 嵌入层与第 1 个 Transformer 层之间插入 FiLM 条件化模块
调式 one-hot 向量 \(c\) → 参数生成网络 \(f_\text{cond}\) → 缩放因子 \(\gamma\) 和偏移因子 \(\beta\)
仿射变换：\(\text{FiLM}(x, c) = \gamma \odot x + \beta\)
初始化 \(\gamma=1, \beta=0\) 保持训练稳定性，从预训练表征出发逐步融入调式信息

损失函数¶

交叉熵损失（Russell 4Q 四分类：HVHA/LVHA/LVLA/HVLA）。MIDIBERT 12 层/12 头/768 维/111M 参数。Batch 16 (EMOPIA) / 8 (VGMIDI)，单 3090 GPU 微调 ≤20 epochs，early stopping（patience=3），总时间 <30 分钟。

实验关键数据¶

主实验：与现有符号音乐模型对比¶

方法	类型	EMOPIA Acc↑	EMOPIA F1↑	VGMIDI Acc↑	VGMIDI F1↑
SVM	传统 ML	0.477	0.476	0.451	0.377
LSTM-Attn	RNN	0.647	0.563	0.417	0.260
MIDIGPT	GPT	0.587	0.572	0.538	0.505
MT-MIDIBERT	多任务	0.676	0.664	0.498	0.453
BiLMA	Transformer	0.708	0.631	0.572	0.478
MIDIBERT (基线)	预训练	0.634	0.628	0.473	0.432
MoFi (本文)	先验注入	0.752	0.751	0.591	0.587

消融实验¶

配置	EMOPIA Acc↑	VGMIDI Acc↑	VGMIDI F1↑	说明
完整 MoFi	0.752	0.591	0.587	调式注入于第 1 层
去掉调式注入	0.716	0.500	0.365	无 FiLM 模块
注入第 6 层（中间层）	0.734	0.552	0.513	非最优位置
注入最后层	0.721	0.528	0.489	效果更差
仅数据增强，无注入	0.723	-	-	增强有帮助但不够

关键发现¶

VGMIDI 上调式注入效果更显著（F1 从 0.365→0.587, +60.8%），因为小数据集更依赖先验知识弥补数据不足
第 1 层注入显著优于中间层和末层，完美验证了逐层探测诊断的有效性
F1 与 Accuracy 非常接近（0.752 vs 0.751），说明四象限分类均衡，无严重类别偏差
数据增强单独只能提升至 72.3%，MoFi 进一步提升至 75.2%，两者互补

亮点与洞察¶

先诊断后注入的通用范式：系统识别预训练模型的知识缺口，再有针对性地注入领域先验，可推广到其他领域
FiLM 注入参数极少（仅增加两个线性层），参数高效
仅使用二值调式（大调/小调），有效降低噪声，符合四分类精度需求
音乐心理学理论与深度学习的创新结合，方法有强可解释性
初始化 \(\gamma=1, \beta=0\) 的设计保证从预训练表征平滑过渡

局限性¶

仅考虑大调/小调二分，忽略 Dorian/Lydian/Mixolydian 等中间调式的情感差异
仅在 MIDIBERT 验证，未测试 MusicBERT、PopMAG 等其他符号音乐预训练模型
VGMIDI 仅 200 曲目，结果方差可能较大
Russell 4Q 情感分类粒度较粗，未探索连续效价-唤醒回归
仅处理单乐器（钢琴），多乐器编排下的调式提取和注入效果未验证

评分¶

新颖性: ⭐⭐⭐⭐ 音乐心理学与深度学习的创新结合，诊断-注入范式新颖
实验充分度: ⭐⭐⭐ 数据集偏小（EMOPIA 1087, VGMIDI 200），但消融和诊断实验系统
写作质量: ⭐⭐⭐⭐ 从诊断到方案层层递进，逻辑清晰
价值: ⭐⭐⭐⭐ 为符号音乐理解提供可解释的理论驱动方案，范式可推广

方向	代表方法	与本文差异
传统 SMER	SVM + 手工特征	无法捕获长程时序依赖，特征工程繁重
预训练模型	MIDIBERT, MusicBERT	MLM 目标仅 token 级重建，缺乏情感先验
多任务学习	MT-MIDIBERT	通过辅助任务隐式增强，未引入音乐理论先验
条件化技术	FiLM (CV 领域)	本文首次将 FiLM 应用于符号音乐情感识别