Segment-Factorized Full-Song Generation on Symbolic Piano Music¶
会议: NeurIPS 2025 (AI for Music Workshop)
arXiv: 2510.05881
代码: 有
领域: 音乐生成 / 目标检测(分类归属)
关键词: 符号音乐生成, 全曲生成, Transformer, 结构建模, 人机协作
一句话总结¶
提出Segmented Full-Song模型(SFS),将歌曲分解为片段,通过选择性注意结构相关上下文自回归生成各片段,实现比现有方法更快速、更结构化的钢琴全曲生成,并支持交互式人机共创。
研究背景与动机¶
符号音乐全曲生成是极具挑战的任务:模型不仅需要高效生成长序列,还需在整体结构上保持一致性。人类作曲通常先构思主题和高层结构,放置主题后再填充剩余部分——这个过程仅部分自回归,且作曲家通常参考最相关的上下文而非重访整首歌。现有方法WholeSong采用四阶段从粗到细的扩散方法,但扩散骨架效率低且未融入主题/动机等高层概念。
方法详解¶
整体框架¶
SFS接受用户提供的歌曲结构\((\\hat{s}_{1:M}, \\hat{e}_{1:M}, \\hat{l}_{1:M})\)和可选的种子片段,将全曲联合概率分解为片段级条件概率的乘积。各片段可按任意顺序生成,每个片段仅关注结构上相关的上下文。
关键设计¶
片段分解与选择性注意:定义四种上下文类型: - Left:目标片段左侧最近的已有片段(平滑过渡) - Right:目标片段右侧最近的已有片段(平滑衔接) - Seed:携带歌曲主要思想的种子片段(全曲风格锚点) - Ref:同标签的参考片段(结构一致性)
每类上下文截断为最多8小节。模型在token级别注意这四类上下文,所有已生成片段通过全局视觉模块\(G\)编码为紧凑表征。
全局视觉编码器:使用预训练VAE编码器将已生成的每小节转化为小节级嵌入,提供歌曲整体内容的粗略概览。
生成器:Transformer解码器,通过in-attention整合全局视觉输出,通过编码器接收四类上下文的token级信息。
帧基音乐表示:音符量化为1/8拍帧。每帧一个帧token后跟音符token(按音高升序排列),音符token由音高、力度、时值三个子token顺序生成。
自动分割算法:基于频谱聚类的无监督歌曲结构标注——计算小节相似度矩阵,邻接正则化鼓励连续标签分配,谱嵌入后k-means聚类得到片段标签和分界点。
损失函数 / 训练策略¶
- 负对数似然(NLL)损失,按token求和而非平均
- Adam优化器,学习率从\(1\times10^{-4}\)指数衰减到\(5\times10^{-6}\)
- 200万步训练,127小时,单张RTX 4090,batch size 12
- 训练时对所有排列进行训练,推理时可适应任意用户指定顺序
- 种子片段选择最频繁出现标签中最接近歌曲中点的片段
实验关键数据¶
客观评估(结构性指标SI)¶
| 模型 | SI₂₋₈ | SI₈₋₁₆ | SI₁₆₊ | 推理速度 |
|---|---|---|---|---|
| Flat | 0.3426 | 0.1990 | 0.0409 | 5.68 beat/sec |
| WholeSong | 0.3234 | 0.2262 | 0.0860 | 0.197 beat/sec |
| SFS (Ours) | 0.3286 | 0.2264 | 0.1109 | 2.03 beat/sec |
| Dataset | 0.4398 | 0.3827 | 0.3300 | - |
用户研究(44名参与者,5分制)¶
| 模型 | Overall Quality (O) | Adherence to Seed (A) |
|---|---|---|
| Flat | 3.36 | 2.34 |
| WholeSong | 3.02 | 3.16 |
| SFS (Ours) | 3.14 | 3.59 |
| Dataset | 4.00 | 4.07 |
关键发现¶
- SFS在长距结构性(SI₁₆₊)上优势最大(0.1109 vs WholeSong 0.0860),证明结构建模有效
- 种子遵循度SFS显著优于WholeSong(3.59 vs 3.16)
- SFS比WholeSong快约10倍(2.03 vs 0.197 beat/sec),实现实时流式输出
- Flat模型因纯前向生成的流畅性获得略高的整体质量分
- 与真实数据仍有明显差距(O: 3.14 vs 4.00),全曲生成仍有很大改进空间
- 片段级对应良好但缺乏平滑的乐句过渡和全曲渐进发展
亮点与洞察¶
- 人类作曲过程建模:先主题后填充、选择性注意相关上下文的设计符合人类创作直觉
- 效率显著提升:自回归Transformer + 片段分解 vs 扩散模型的每段完整过程
- 灵活排序:任意生成顺序支持交互式人机共创工作流
- Web接口:提供结构编辑器和钢琴卷帘编辑器的交互式作曲工具
局限与展望¶
- 生成的音乐有时缺乏乐句间的平滑过渡和情感发展
- 片段主题一致但连接松散,需要高层规划机制引导乐句发展
- 自动分割算法无法提供语义标签(verse/chorus等)
- 无法识别连续重复片段
相关工作与启发¶
- 相比WholeSong的扩散方法,自回归+选择性注意是更高效的全曲建模方案
- 种子条件化设计可推广到其他生成任务中的"主题一致性"控制
- 可学习的任意生成顺序训练策略有参考价值
评分¶
- 新颖性:⭐⭐⭐⭐(片段分解+选择性注意的全曲建模)
- 技术深度:⭐⭐⭐⭐(分割算法+位置编码+训练策略设计精细)
- 实验完整性:⭐⭐⭐⭐(客观指标+用户研究44人)
- 实用价值:⭐⭐⭐⭐⭐(实时生成+Web交互工具+开源)
相关论文¶
- [ACL 2026] Anchored Cyclic Generation: A Novel Paradigm for Long-Sequence Symbolic Music Generation
- [NeurIPS 2025] OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps
- [NeurIPS 2025] InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
- [NeurIPS 2025] Generalizable Insights for Graph Transformers in Theory and Practice
- [CVPR 2025] ROICtrl: Boosting Instance Control for Visual Generation