跳转至

Let the Model Learn to Feel: Mode-Guided Tonality Injection for Symbolic Music Emotion Recognition

会议: AAAI 2026
arXiv: 2512.17946
代码: https://github.com/ZoeyHuang-paper/MoFi
领域: 音乐情感识别 / 符号音乐理解
关键词: symbolic music emotion recognition, MIDIBERT, mode injection, FiLM, music psychology

一句话总结

通过 MoGE 诊断策略系统发现 MIDIBERT 未有效编码调式-情感关联,提出 MoFi 注入框架通过 FiLM 机制将大调/小调先验注入 MIDIBERT 第 1 层(诊断确定的最弱情感信息层),在 EMOPIA 上准确率 75.2%(+11.8%),VGMIDI 上 59.1%(+11.8%),F1 提升 12.3%/15.5%。

研究背景与动机

符号音乐情感识别 (SMER) 是符号音乐理解的核心任务。MIDIBERT 等 Transformer 预训练模型在语义理解上表现出色,但在情感识别上存在根本缺陷:

问题 原因 影响
调式-情感关联缺失 MLM 预训练目标关注 token 重建,无显式激励学习调式 大调(快乐)/小调(悲伤)的核心音乐心理学规律未被编码
SMER 数据集极小 EMOPIA 仅 1087 clips,VGMIDI 仅 200 曲目 微调阶段难以从小数据中自动学到情感特征
黑箱微调 未诊断模型哪层缺什么知识就直接微调 注入策略缺乏针对性,可能在错误位置注入

音乐心理学基础:实证研究一致表明大调 → 高效价正向情绪(快乐、明快),小调 → 低效价负向情绪(悲伤、忧郁)。此关联对调性(key)相对不变:C 大调和 G 大调传达相似情感,决定因素是音程结构而非绝对音高。这一规律在文献中被 Kastner & Crowder、Gerardi & Gerken、Dalla Bella 等多组研究反复验证。

方法详解

整体框架

两阶段方法:(1) MoGE 诊断——通过数据增强实验和逐层探测,系统识别 MIDIBERT 的知识缺口和最佳注入位置;(2) MoFi 注入——在确定的目标层通过 FiLM 条件化模块注入调式先验。

关键设计

  1. MoGE 诊断 — 数据增强实验
  2. 对 EMOPIA 执行保持调式的音高移调(单个八度内均匀移动所有音符,音程结构完全保持 → 调式不变)
  3. 结果:原始数据准确率 67.5% → 增强后 72.3%(+4.8%)
  4. 结论:MIDIBERT 未编码调式-情感关联,否则增强应无显著差异

  5. MoGE 诊断 — 逐层探测

  6. 冻结 MIDIBERT 12 层全部参数,仅在每层前添加可训练的 self-attention + 分类头进行微调
  7. 发现:中间层性能最优,底层(第 1 层)情感信息最弱,高层特化于 MLM 任务
  8. 结论:第 1 层是注入知识的最佳目标位置

  9. 调式提取

  10. 使用 Krumhansl-Kessler (K-K) 算法从 MIDI 自动提取调式(认知心理学驱动,拟合人类听觉调性感知)
  11. 仅采用大调/小调二值分类(简化降噪,Dorian/Lydian 等罕见调式样本少且情感特征不一致)
  12. 输出为 one-hot 向量

  13. MoFi — FiLM 注入

  14. 在 Compound Word 嵌入层与第 1 个 Transformer 层之间插入 FiLM 条件化模块
  15. 调式 one-hot 向量 \(c\) → 参数生成网络 \(f_\text{cond}\) → 缩放因子 \(\gamma\) 和偏移因子 \(\beta\)
  16. 仿射变换:\(\text{FiLM}(x, c) = \gamma \odot x + \beta\)
  17. 初始化 \(\gamma=1, \beta=0\) 保持训练稳定性,从预训练表征出发逐步融入调式信息

损失函数

交叉熵损失(Russell 4Q 四分类:HVHA/LVHA/LVLA/HVLA)。MIDIBERT 12 层/12 头/768 维/111M 参数。Batch 16 (EMOPIA) / 8 (VGMIDI),单 3090 GPU 微调 ≤20 epochs,early stopping(patience=3),总时间 <30 分钟。

实验关键数据

主实验:与现有符号音乐模型对比

方法 类型 EMOPIA Acc↑ EMOPIA F1↑ VGMIDI Acc↑ VGMIDI F1↑
SVM 传统 ML 0.477 0.476 0.451 0.377
LSTM-Attn RNN 0.647 0.563 0.417 0.260
MIDIGPT GPT 0.587 0.572 0.538 0.505
MT-MIDIBERT 多任务 0.676 0.664 0.498 0.453
BiLMA Transformer 0.708 0.631 0.572 0.478
MIDIBERT (基线) 预训练 0.634 0.628 0.473 0.432
MoFi (本文) 先验注入 0.752 0.751 0.591 0.587

消融实验

配置 EMOPIA Acc↑ VGMIDI Acc↑ VGMIDI F1↑ 说明
完整 MoFi 0.752 0.591 0.587 调式注入于第 1 层
去掉调式注入 0.716 0.500 0.365 无 FiLM 模块
注入第 6 层(中间层) 0.734 0.552 0.513 非最优位置
注入最后层 0.721 0.528 0.489 效果更差
仅数据增强,无注入 0.723 - - 增强有帮助但不够

关键发现

  • VGMIDI 上调式注入效果更显著(F1 从 0.365→0.587, +60.8%),因为小数据集更依赖先验知识弥补数据不足
  • 第 1 层注入显著优于中间层和末层,完美验证了逐层探测诊断的有效性
  • F1 与 Accuracy 非常接近(0.752 vs 0.751),说明四象限分类均衡,无严重类别偏差
  • 数据增强单独只能提升至 72.3%,MoFi 进一步提升至 75.2%,两者互补

亮点与洞察

  • 先诊断后注入的通用范式:系统识别预训练模型的知识缺口,再有针对性地注入领域先验,可推广到其他领域
  • FiLM 注入参数极少(仅增加两个线性层),参数高效
  • 仅使用二值调式(大调/小调),有效降低噪声,符合四分类精度需求
  • 音乐心理学理论与深度学习的创新结合,方法有强可解释性
  • 初始化 \(\gamma=1, \beta=0\) 的设计保证从预训练表征平滑过渡

局限性

  • 仅考虑大调/小调二分,忽略 Dorian/Lydian/Mixolydian 等中间调式的情感差异
  • 仅在 MIDIBERT 验证,未测试 MusicBERT、PopMAG 等其他符号音乐预训练模型
  • VGMIDI 仅 200 曲目,结果方差可能较大
  • Russell 4Q 情感分类粒度较粗,未探索连续效价-唤醒回归
  • 仅处理单乐器(钢琴),多乐器编排下的调式提取和注入效果未验证

相关工作

方向 代表方法 与本文差异
传统 SMER SVM + 手工特征 无法捕获长程时序依赖,特征工程繁重
预训练模型 MIDIBERT, MusicBERT MLM 目标仅 token 级重建,缺乏情感先验
多任务学习 MT-MIDIBERT 通过辅助任务隐式增强,未引入音乐理论先验
条件化技术 FiLM (CV 领域) 本文首次将 FiLM 应用于符号音乐情感识别

评分

  • 新颖性: ⭐⭐⭐⭐ 音乐心理学与深度学习的创新结合,诊断-注入范式新颖
  • 实验充分度: ⭐⭐⭐ 数据集偏小(EMOPIA 1087, VGMIDI 200),但消融和诊断实验系统
  • 写作质量: ⭐⭐⭐⭐ 从诊断到方案层层递进,逻辑清晰
  • 价值: ⭐⭐⭐⭐ 为符号音乐理解提供可解释的理论驱动方案,范式可推广