Segment-Factorized Full-Song Generation on Symbolic Piano Music¶

会议: NeurIPS 2025 (AI for Music Workshop)
arXiv: 2510.05881
代码: 有
领域: 音乐生成 / 目标检测（分类归属）
关键词: 符号音乐生成, 全曲生成, Transformer, 结构建模, 人机协作

一句话总结¶

提出Segmented Full-Song模型（SFS），将歌曲分解为片段，通过选择性注意结构相关上下文自回归生成各片段，实现比现有方法更快速、更结构化的钢琴全曲生成，并支持交互式人机共创。

研究背景与动机¶

符号音乐全曲生成是极具挑战的任务：模型不仅需要高效生成长序列，还需在整体结构上保持一致性。人类作曲通常先构思主题和高层结构，放置主题后再填充剩余部分——这个过程仅部分自回归，且作曲家通常参考最相关的上下文而非重访整首歌。现有方法WholeSong采用四阶段从粗到细的扩散方法，但扩散骨架效率低且未融入主题/动机等高层概念。

方法详解¶

整体框架¶

SFS接受用户提供的歌曲结构\((\\hat{s}_{1:M}, \\hat{e}_{1:M}, \\hat{l}_{1:M})\)和可选的种子片段，将全曲联合概率分解为片段级条件概率的乘积。各片段可按任意顺序生成，每个片段仅关注结构上相关的上下文。

关键设计¶

片段分解与选择性注意：定义四种上下文类型： - Left：目标片段左侧最近的已有片段（平滑过渡） - Right：目标片段右侧最近的已有片段（平滑衔接） - Seed：携带歌曲主要思想的种子片段（全曲风格锚点） - Ref：同标签的参考片段（结构一致性）

每类上下文截断为最多8小节。模型在token级别注意这四类上下文，所有已生成片段通过全局视觉模块\(G\)编码为紧凑表征。

全局视觉编码器：使用预训练VAE编码器将已生成的每小节转化为小节级嵌入，提供歌曲整体内容的粗略概览。

生成器：Transformer解码器，通过in-attention整合全局视觉输出，通过编码器接收四类上下文的token级信息。

帧基音乐表示：音符量化为1/8拍帧。每帧一个帧token后跟音符token（按音高升序排列），音符token由音高、力度、时值三个子token顺序生成。

自动分割算法：基于频谱聚类的无监督歌曲结构标注——计算小节相似度矩阵，邻接正则化鼓励连续标签分配，谱嵌入后k-means聚类得到片段标签和分界点。

损失函数 / 训练策略¶

负对数似然（NLL）损失，按token求和而非平均
Adam优化器，学习率从\(1\times10^{-4}\)指数衰减到\(5\times10^{-6}\)
200万步训练，127小时，单张RTX 4090，batch size 12
训练时对所有排列进行训练，推理时可适应任意用户指定顺序
种子片段选择最频繁出现标签中最接近歌曲中点的片段

实验关键数据¶

客观评估（结构性指标SI）¶

模型	SI₂₋₈	SI₈₋₁₆	SI₁₆₊	推理速度
Flat	0.3426	0.1990	0.0409	5.68 beat/sec
WholeSong	0.3234	0.2262	0.0860	0.197 beat/sec
SFS (Ours)	0.3286	0.2264	0.1109	2.03 beat/sec
Dataset	0.4398	0.3827	0.3300	-

用户研究（44名参与者，5分制）¶

模型	Overall Quality (O)	Adherence to Seed (A)
Flat	3.36	2.34
WholeSong	3.02	3.16
SFS (Ours)	3.14	3.59
Dataset	4.00	4.07

关键发现¶

SFS在长距结构性（SI₁₆₊）上优势最大（0.1109 vs WholeSong 0.0860），证明结构建模有效
种子遵循度SFS显著优于WholeSong（3.59 vs 3.16）
SFS比WholeSong快约10倍（2.03 vs 0.197 beat/sec），实现实时流式输出
Flat模型因纯前向生成的流畅性获得略高的整体质量分
与真实数据仍有明显差距（O: 3.14 vs 4.00），全曲生成仍有很大改进空间
片段级对应良好但缺乏平滑的乐句过渡和全曲渐进发展

亮点与洞察¶

人类作曲过程建模：先主题后填充、选择性注意相关上下文的设计符合人类创作直觉
效率显著提升：自回归Transformer + 片段分解 vs 扩散模型的每段完整过程
灵活排序：任意生成顺序支持交互式人机共创工作流
Web接口：提供结构编辑器和钢琴卷帘编辑器的交互式作曲工具

局限与展望¶

生成的音乐有时缺乏乐句间的平滑过渡和情感发展
片段主题一致但连接松散，需要高层规划机制引导乐句发展
自动分割算法无法提供语义标签（verse/chorus等）
无法识别连续重复片段

评分¶

新颖性：⭐⭐⭐⭐（片段分解+选择性注意的全曲建模）
技术深度：⭐⭐⭐⭐（分割算法+位置编码+训练策略设计精细）
实验完整性：⭐⭐⭐⭐（客观指标+用户研究44人）
实用价值：⭐⭐⭐⭐⭐（实时生成+Web交互工具+开源）