跳转至

Segment-Factorized Full-Song Generation on Symbolic Piano Music

会议: NeurIPS 2025 (AI for Music Workshop)
arXiv: 2510.05881
代码:
领域: 音乐生成 / 目标检测(分类归属)
关键词: 符号音乐生成, 全曲生成, Transformer, 结构建模, 人机协作

一句话总结

提出Segmented Full-Song模型(SFS),将歌曲分解为片段,通过选择性注意结构相关上下文自回归生成各片段,实现比现有方法更快速、更结构化的钢琴全曲生成,并支持交互式人机共创。

研究背景与动机

符号音乐全曲生成是极具挑战的任务:模型不仅需要高效生成长序列,还需在整体结构上保持一致性。人类作曲通常先构思主题和高层结构,放置主题后再填充剩余部分——这个过程仅部分自回归,且作曲家通常参考最相关的上下文而非重访整首歌。现有方法WholeSong采用四阶段从粗到细的扩散方法,但扩散骨架效率低且未融入主题/动机等高层概念。

方法详解

整体框架

SFS接受用户提供的歌曲结构\((\\hat{s}_{1:M}, \\hat{e}_{1:M}, \\hat{l}_{1:M})\)和可选的种子片段,将全曲联合概率分解为片段级条件概率的乘积。各片段可按任意顺序生成,每个片段仅关注结构上相关的上下文。

关键设计

片段分解与选择性注意:定义四种上下文类型: - Left:目标片段左侧最近的已有片段(平滑过渡) - Right:目标片段右侧最近的已有片段(平滑衔接) - Seed:携带歌曲主要思想的种子片段(全曲风格锚点) - Ref:同标签的参考片段(结构一致性)

每类上下文截断为最多8小节。模型在token级别注意这四类上下文,所有已生成片段通过全局视觉模块\(G\)编码为紧凑表征。

全局视觉编码器:使用预训练VAE编码器将已生成的每小节转化为小节级嵌入,提供歌曲整体内容的粗略概览。

生成器:Transformer解码器,通过in-attention整合全局视觉输出,通过编码器接收四类上下文的token级信息。

帧基音乐表示:音符量化为1/8拍帧。每帧一个帧token后跟音符token(按音高升序排列),音符token由音高、力度、时值三个子token顺序生成。

自动分割算法:基于频谱聚类的无监督歌曲结构标注——计算小节相似度矩阵,邻接正则化鼓励连续标签分配,谱嵌入后k-means聚类得到片段标签和分界点。

损失函数 / 训练策略

  • 负对数似然(NLL)损失,按token求和而非平均
  • Adam优化器,学习率从\(1\times10^{-4}\)指数衰减到\(5\times10^{-6}\)
  • 200万步训练,127小时,单张RTX 4090,batch size 12
  • 训练时对所有排列进行训练,推理时可适应任意用户指定顺序
  • 种子片段选择最频繁出现标签中最接近歌曲中点的片段

实验关键数据

客观评估(结构性指标SI)

模型 SI₂₋₈ SI₈₋₁₆ SI₁₆₊ 推理速度
Flat 0.3426 0.1990 0.0409 5.68 beat/sec
WholeSong 0.3234 0.2262 0.0860 0.197 beat/sec
SFS (Ours) 0.3286 0.2264 0.1109 2.03 beat/sec
Dataset 0.4398 0.3827 0.3300 -

用户研究(44名参与者,5分制)

模型 Overall Quality (O) Adherence to Seed (A)
Flat 3.36 2.34
WholeSong 3.02 3.16
SFS (Ours) 3.14 3.59
Dataset 4.00 4.07

关键发现

  • SFS在长距结构性(SI₁₆₊)上优势最大(0.1109 vs WholeSong 0.0860),证明结构建模有效
  • 种子遵循度SFS显著优于WholeSong(3.59 vs 3.16)
  • SFS比WholeSong快约10倍(2.03 vs 0.197 beat/sec),实现实时流式输出
  • Flat模型因纯前向生成的流畅性获得略高的整体质量分
  • 与真实数据仍有明显差距(O: 3.14 vs 4.00),全曲生成仍有很大改进空间
  • 片段级对应良好但缺乏平滑的乐句过渡和全曲渐进发展

亮点与洞察

  1. 人类作曲过程建模:先主题后填充、选择性注意相关上下文的设计符合人类创作直觉
  2. 效率显著提升:自回归Transformer + 片段分解 vs 扩散模型的每段完整过程
  3. 灵活排序:任意生成顺序支持交互式人机共创工作流
  4. Web接口:提供结构编辑器和钢琴卷帘编辑器的交互式作曲工具

局限与展望

  • 生成的音乐有时缺乏乐句间的平滑过渡和情感发展
  • 片段主题一致但连接松散,需要高层规划机制引导乐句发展
  • 自动分割算法无法提供语义标签(verse/chorus等)
  • 无法识别连续重复片段

相关工作与启发

  • 相比WholeSong的扩散方法,自回归+选择性注意是更高效的全曲建模方案
  • 种子条件化设计可推广到其他生成任务中的"主题一致性"控制
  • 可学习的任意生成顺序训练策略有参考价值

评分

  • 新颖性:⭐⭐⭐⭐(片段分解+选择性注意的全曲建模)
  • 技术深度:⭐⭐⭐⭐(分割算法+位置编码+训练策略设计精细)
  • 实验完整性:⭐⭐⭐⭐(客观指标+用户研究44人)
  • 实用价值:⭐⭐⭐⭐⭐(实时生成+Web交互工具+开源)

相关论文