Let the Model Learn to Feel: Mode-Guided Tonality Injection for Symbolic Music Emotion Recognition¶
会议: AAAI 2026
arXiv: 2512.17946
代码: https://github.com/ZoeyHuang-paper/MoFi
领域: 音乐情感识别 / 符号音乐理解
关键词: symbolic music emotion recognition, MIDIBERT, mode injection, FiLM, music psychology
一句话总结¶
通过 MoGE 诊断策略系统发现 MIDIBERT 未有效编码调式-情感关联,提出 MoFi 注入框架通过 FiLM 机制将大调/小调先验注入 MIDIBERT 第 1 层(诊断确定的最弱情感信息层),在 EMOPIA 上准确率 75.2%(+11.8%),VGMIDI 上 59.1%(+11.8%),F1 提升 12.3%/15.5%。
研究背景与动机¶
符号音乐情感识别 (SMER) 是符号音乐理解的核心任务。MIDIBERT 等 Transformer 预训练模型在语义理解上表现出色,但在情感识别上存在根本缺陷:
| 问题 | 原因 | 影响 |
|---|---|---|
| 调式-情感关联缺失 | MLM 预训练目标关注 token 重建,无显式激励学习调式 | 大调(快乐)/小调(悲伤)的核心音乐心理学规律未被编码 |
| SMER 数据集极小 | EMOPIA 仅 1087 clips,VGMIDI 仅 200 曲目 | 微调阶段难以从小数据中自动学到情感特征 |
| 黑箱微调 | 未诊断模型哪层缺什么知识就直接微调 | 注入策略缺乏针对性,可能在错误位置注入 |
音乐心理学基础:实证研究一致表明大调 → 高效价正向情绪(快乐、明快),小调 → 低效价负向情绪(悲伤、忧郁)。此关联对调性(key)相对不变:C 大调和 G 大调传达相似情感,决定因素是音程结构而非绝对音高。这一规律在文献中被 Kastner & Crowder、Gerardi & Gerken、Dalla Bella 等多组研究反复验证。
方法详解¶
整体框架¶
两阶段方法:(1) MoGE 诊断——通过数据增强实验和逐层探测,系统识别 MIDIBERT 的知识缺口和最佳注入位置;(2) MoFi 注入——在确定的目标层通过 FiLM 条件化模块注入调式先验。
关键设计¶
- MoGE 诊断 — 数据增强实验
- 对 EMOPIA 执行保持调式的音高移调(单个八度内均匀移动所有音符,音程结构完全保持 → 调式不变)
- 结果:原始数据准确率 67.5% → 增强后 72.3%(+4.8%)
-
结论:MIDIBERT 未编码调式-情感关联,否则增强应无显著差异
-
MoGE 诊断 — 逐层探测
- 冻结 MIDIBERT 12 层全部参数,仅在每层前添加可训练的 self-attention + 分类头进行微调
- 发现:中间层性能最优,底层(第 1 层)情感信息最弱,高层特化于 MLM 任务
-
结论:第 1 层是注入知识的最佳目标位置
-
调式提取
- 使用 Krumhansl-Kessler (K-K) 算法从 MIDI 自动提取调式(认知心理学驱动,拟合人类听觉调性感知)
- 仅采用大调/小调二值分类(简化降噪,Dorian/Lydian 等罕见调式样本少且情感特征不一致)
-
输出为 one-hot 向量
-
MoFi — FiLM 注入
- 在 Compound Word 嵌入层与第 1 个 Transformer 层之间插入 FiLM 条件化模块
- 调式 one-hot 向量 \(c\) → 参数生成网络 \(f_\text{cond}\) → 缩放因子 \(\gamma\) 和偏移因子 \(\beta\)
- 仿射变换:\(\text{FiLM}(x, c) = \gamma \odot x + \beta\)
- 初始化 \(\gamma=1, \beta=0\) 保持训练稳定性,从预训练表征出发逐步融入调式信息
损失函数¶
交叉熵损失(Russell 4Q 四分类:HVHA/LVHA/LVLA/HVLA)。MIDIBERT 12 层/12 头/768 维/111M 参数。Batch 16 (EMOPIA) / 8 (VGMIDI),单 3090 GPU 微调 ≤20 epochs,early stopping(patience=3),总时间 <30 分钟。
实验关键数据¶
主实验:与现有符号音乐模型对比¶
| 方法 | 类型 | EMOPIA Acc↑ | EMOPIA F1↑ | VGMIDI Acc↑ | VGMIDI F1↑ |
|---|---|---|---|---|---|
| SVM | 传统 ML | 0.477 | 0.476 | 0.451 | 0.377 |
| LSTM-Attn | RNN | 0.647 | 0.563 | 0.417 | 0.260 |
| MIDIGPT | GPT | 0.587 | 0.572 | 0.538 | 0.505 |
| MT-MIDIBERT | 多任务 | 0.676 | 0.664 | 0.498 | 0.453 |
| BiLMA | Transformer | 0.708 | 0.631 | 0.572 | 0.478 |
| MIDIBERT (基线) | 预训练 | 0.634 | 0.628 | 0.473 | 0.432 |
| MoFi (本文) | 先验注入 | 0.752 | 0.751 | 0.591 | 0.587 |
消融实验¶
| 配置 | EMOPIA Acc↑ | VGMIDI Acc↑ | VGMIDI F1↑ | 说明 |
|---|---|---|---|---|
| 完整 MoFi | 0.752 | 0.591 | 0.587 | 调式注入于第 1 层 |
| 去掉调式注入 | 0.716 | 0.500 | 0.365 | 无 FiLM 模块 |
| 注入第 6 层(中间层) | 0.734 | 0.552 | 0.513 | 非最优位置 |
| 注入最后层 | 0.721 | 0.528 | 0.489 | 效果更差 |
| 仅数据增强,无注入 | 0.723 | - | - | 增强有帮助但不够 |
关键发现¶
- VGMIDI 上调式注入效果更显著(F1 从 0.365→0.587, +60.8%),因为小数据集更依赖先验知识弥补数据不足
- 第 1 层注入显著优于中间层和末层,完美验证了逐层探测诊断的有效性
- F1 与 Accuracy 非常接近(0.752 vs 0.751),说明四象限分类均衡,无严重类别偏差
- 数据增强单独只能提升至 72.3%,MoFi 进一步提升至 75.2%,两者互补
亮点与洞察¶
- 先诊断后注入的通用范式:系统识别预训练模型的知识缺口,再有针对性地注入领域先验,可推广到其他领域
- FiLM 注入参数极少(仅增加两个线性层),参数高效
- 仅使用二值调式(大调/小调),有效降低噪声,符合四分类精度需求
- 音乐心理学理论与深度学习的创新结合,方法有强可解释性
- 初始化 \(\gamma=1, \beta=0\) 的设计保证从预训练表征平滑过渡
局限性¶
- 仅考虑大调/小调二分,忽略 Dorian/Lydian/Mixolydian 等中间调式的情感差异
- 仅在 MIDIBERT 验证,未测试 MusicBERT、PopMAG 等其他符号音乐预训练模型
- VGMIDI 仅 200 曲目,结果方差可能较大
- Russell 4Q 情感分类粒度较粗,未探索连续效价-唤醒回归
- 仅处理单乐器(钢琴),多乐器编排下的调式提取和注入效果未验证
相关工作¶
| 方向 | 代表方法 | 与本文差异 |
|---|---|---|
| 传统 SMER | SVM + 手工特征 | 无法捕获长程时序依赖,特征工程繁重 |
| 预训练模型 | MIDIBERT, MusicBERT | MLM 目标仅 token 级重建,缺乏情感先验 |
| 多任务学习 | MT-MIDIBERT | 通过辅助任务隐式增强,未引入音乐理论先验 |
| 条件化技术 | FiLM (CV 领域) | 本文首次将 FiLM 应用于符号音乐情感识别 |
评分¶
- 新颖性: ⭐⭐⭐⭐ 音乐心理学与深度学习的创新结合,诊断-注入范式新颖
- 实验充分度: ⭐⭐⭐ 数据集偏小(EMOPIA 1087, VGMIDI 200),但消融和诊断实验系统
- 写作质量: ⭐⭐⭐⭐ 从诊断到方案层层递进,逻辑清晰
- 价值: ⭐⭐⭐⭐ 为符号音乐理解提供可解释的理论驱动方案,范式可推广