LeVo: High-Quality Song Generation with Multi-Preference Alignment¶

会议: NeurIPS 2025
arXiv: 2506.07520
代码: GitHub (有)
领域: 音频与语音生成
关键词: 歌曲生成, 语言模型, 多偏好对齐, DPO, 音乐编解码器

一句话总结¶

提出 LeVo 歌曲生成框架，通过语言模型并行建模混合 token 和双轨 token 以兼顾人声-伴奏和谐性和音质，并创新性地引入基于 DPO 的多偏好对齐方法提升音乐性和指令跟随能力。

研究背景与动机¶

领域现状: LLM 和音频语言模型的进步推动了歌词到歌曲生成的发展。Jukebox 开创了用语言模型预测混合 token 的范式，YuE 引入双轨（人声+伴奏）token 预测，SongGen 探索交错预测模式。工业系统（Suno、Mureka、Udio）已展现出优秀效果但技术不公开。

现有痛点: - 混合 token 方法词汇有限，无法完整捕捉人声与伴奏的复杂组合，音质受限 - 双轨 token 方法虽音质高，但独立预测导致人声-伴奏不和谐 - 交错预测模式序列长度剧增，限制可扩展性和长文本歌曲生成 - 数据质量参差不齐、音乐注释不可靠，训练效果受制约

核心矛盾: 混合 token 保证和谐但音质有限 vs 双轨 token 音质好但和谐性差；高质量数据稀缺限制了音乐性和指令跟随能力。

本文目标: 同时优化歌曲生成的音质、音乐性、指令跟随能力和人声-伴奏和谐性。

切入角度: 混合 token 和双轨 token 并行建模 + 模块化扩展训练 + 多偏好 DPO 对齐。

核心 idea: 用混合 token 掌控全局和谐，用双轨 token 精细化音质，二者并行而不相互干扰。

方法详解¶

整体框架¶

LeVo = LeLM（语言模型）+ Music Codec（音乐编解码器）

LeLM 由一个大型语言模型（预测混合 token）和一个 AR 解码器（预测双轨 token）组成。Music Codec 基于 MuCodec 扩展，编码器提取 token，解码器（扩散 Transformer + VAE 解码器）将 token 重建为高保真音频。

关键设计¶

LeLM 双层架构:
- 语言模型（decoder-only Transformer）：专注于 next-token prediction 预测混合 token，捕获旋律、节奏、节拍等高层结构信息，确保人声-伴奏和谐： \(p(\mathbf{S}_m | \mathbf{C}; \boldsymbol{\theta}) = \prod_{t=0}^T p(\mathbf{S}_{m,t} | \mathbf{S}_{m,<t}, \mathbf{C}; \boldsymbol{\theta})\)
- AR 解码器（较浅的 decoder-only Transformer）：基于语言模型隐状态并行预测人声和伴奏 token，引入延迟模式（delay pattern）让双轨 token 在预测第 \(t\) 步时可以看到语言模型未来 \(k\) 步的输出： \(p(\mathbf{S}_v, \mathbf{S}_a | \mathbf{C}; \boldsymbol{\theta}) = \prod_{t=0}^{T-k} p(\mathbf{S}_{v,t}, \mathbf{S}_{a,t} | \mathbf{S}_{v,<t}, \mathbf{S}_{a,<t}, \mathbf{S}_{m,<t+k}, \mathbf{C}; \boldsymbol{\theta})\)
Music Codec 设计:
- 编码器 = MuEncoder（提取音乐相关表征）+ RVQ（量化为 token）
- 解码器 = 扩散 Transformer（从 token 嵌入重建 VAE 特征）+ VAE 解码器（直接生成音频）
- 两种 token 策略：混合 token（整首歌处理）和双轨 token（先分离人声和伴奏再分别编码）
基于 DPO 的多偏好对齐:
- 数据构建: 用 LLM 生成 20,000 条歌词，每条搭配随机音频提示和文本描述，生成多个样本
- 策略1 — 歌词对齐偏好: 用 ASR 计算音素错误（PER），音素错误差距 >40 的构成偏好对
- 策略2 — 提示一致性偏好: 用 MuQ-MuLan 模型计算相似度分数，设置阈值筛选偏好对
- 策略3 — 音乐性偏好: 三阶段流程——众包排序→训练奖励模型→大规模筛选，最终收集约 60,000 个偏好对
- 融合方式 — 深度网络插值（DNI）: 分别在三类偏好数据上 DPO 微调得到三组参数，线性插值合并为最终模型，支持可控系数调节

损失函数 / 训练策略¶

三阶段训练范式：

阶段1 — 预训练: 训练语言模型对齐条件输入与混合 token，AR 解码器冻结，音频提示和文本描述各 50% 随机丢弃。带来生成多样性和人声-伴奏和谐性。
阶段2 — 模块化扩展训练: 训练 AR 解码器建模双轨 token，阶段1 所有模块冻结。提升音质和音乐性，不干扰预训练知识。
阶段3 — 多偏好对齐: 用 DPO 损失在多维偏好数据上微调整个 LeLM。显著增强音乐性和指令跟随能力。

模型规模：LeLM ~2B 参数，MuEncoder 300M 参数，扩散模型 ~700M 参数，VAE 150M 参数。数据：200 万首歌曲（约 110,000 小时）。

实验关键数据¶

主实验¶

客观指标对比（开源与闭源系统）：

模型	FAD ↓	MuQ-T ↑	MuQ-A ↑	PER ↓	CE ↑	CU ↑	PQ ↑
Suno-V4.5	2.59	0.34	0.84	21.6	7.65	7.86	8.35
Mureka-O1	2.50	0.33	0.87	7.2	7.71	7.83	8.44
YuE	2.65	0.27	0.74	36.4	7.13	7.39	7.77
SongGen*	2.68	0.25	0.80	27.5	7.63	7.79	8.37
LeVo	2.68	0.34	0.83	7.2	7.78	7.90	8.46

主观 MOS（1-5分）：

模型	OVL	MEL	HAM	SSC	AQ	LYC
Suno-V4.5	3.59	4.10	3.93	4.19	4.00	3.17
Mureka-O1	3.42	3.88	3.89	4.14	3.87	3.32
LeVo	3.42	3.93	3.90	4.09	3.96	3.38
SongGen*	2.91	3.43	3.44	3.66	3.69	2.84

消融实验¶

DPO 多偏好对齐策略对比：

方法	FAD ↓	MuQ-T ↑	PER ↓	CE ↑	PQ ↑
w/o DPO	2.60	0.31	10.6	7.70	8.39
仅策略1 (歌词对齐)	2.85	0.30	6.5	7.72	8.42
仅策略2 (提示一致)	2.89	0.34	10.3	7.75	8.43
仅策略3 (音乐性)	2.63	0.32	11.2	7.78	8.45
混合训练	2.75	0.33	7.5	7.76	8.43
LeVo (插值)	2.68	0.34	7.2	7.78	8.46

关键发现¶

移除阶段2（模块化扩展训练）或 AR 解码器均导致性能下降，验证了防止混合/双轨 token 干扰的必要性
插值融合方法优于简单混合训练，各策略各司其职，且支持平滑过渡
LeVo 歌词对齐能力 (LYC) 超过 Suno-V4.5 (+0.21 MOS)
在开源模型中全面领先，与闭源工业系统竞争力相当

亮点与洞察¶

混合+双轨并行建模范式: 巧妙解决了和谐性与音质的矛盾，不增加序列长度
模块化扩展训练策略: 冻结预训练模块再训练新模块，有效防止知识遗忘和 token 干扰
多偏好 DPO 的首次歌曲生成应用: 三种偏好数据构建策略各有独特设计
DNI 参数插值: 不仅组合多偏好，还提供了可控的偏好权重调节能力
工业级对标: 在学术界开源方法中首次达到与 Suno 等工业系统可比的水平

局限与展望¶

音频质量仍受限于训练数据质量参差和离散 token 的信息瓶颈
歌曲结构建模（verse/chorus 等）仍不如 Suno 和 Mureka
注释伪标签（文本描述由 Qwen2-Audio 生成）的精度有限，影响指令跟随上界
未开源训练数据（版权原因），复现受限
风格迁移和端到端生成能力可能被滥用于深度伪造

评分¶

新颖性: ⭐⭐⭐⭐⭐ 混合+双轨并行建模和多偏好 DPO 的设计具有显著原创性
实验充分度: ⭐⭐⭐⭐⭐ 12个对比系统、完整主观+客观评估、详细消融
写作质量: ⭐⭐⭐⭐ 结构清晰，技术描述详尽
价值: ⭐⭐⭐⭐⭐ 开源歌曲生成的里程碑式工作，缩小了学术界与工业界的差距