跳转至

ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control

会议: ACL 2025
arXiv: 2406.01205
领域: LLM NLP / 语音合成
关键词: 零样本语音合成, 风格可控TTS, 音色克隆, 离散编解码器解耦, 混合高斯密度网络

一句话总结

ControlSpeech 是首个同时实现零样本音色克隆和零样本语言风格控制的TTS系统,通过离散编解码器空间中的解耦表示和风格混合语义密度(SMSD)模块解决了风格控制中的多对多问题。

研究背景与动机

  • 现有零样本TTS的局限:以 VALL-E 为代表的零样本TTS模型能克隆说话人音色,但风格固定、无法进一步控制或调整
  • 现有风格可控TTS的局限:PromptTTS 2、InstructTTS 等风格可控模型能合成任意风格语音,但无法指定音色或进行零样本音色克隆
  • 核心需求:同时独立地控制内容(content)、音色(timbre)和风格(style),例如"用特朗普的声音以孩童的欢快风格说'今天是周一'"
  • 两大挑战
  • 风格提示和语音提示的信息可能纠缠互相干扰(语音提示中的风格可能与文本风格描述矛盾)
  • 缺乏同时包含风格描述文本和说话人提示的大规模数据集

方法详解

整体框架

ControlSpeech 本质上是一个编码器-解码器的并行编解码器生成模型,包含三个独立编码器:

  1. 文本编码器:将内容文本转为音素并编码
  2. 风格编码器:使用 BERT tokenizer 对风格文本进行词级编码,提取 [CLS] 全局风格表示
  3. 语音编码器:使用预训练的 FACodec 编码器提取音色信息

生成过程分两阶段: - 第一阶段通过基于 mask 的并行解码器(Conformer)生成离散编解码器表示 - 第二阶段通过条件归一化层融合音色嵌入,输入预训练解码器生成最终语音

关键设计

1. 编解码器解耦(Codec Decoupling)

利用 FACodec(预训练在 60,000 小时数据上)将语音分解为: - 内容编解码器 Yc:语义内容表示 - 韵律编解码器 Yp:韵律信息 - 声学编解码器 Ya:声学细节 - 音色嵌入 Yt:全局音色向量

风格编解码器 Ys 通过拼接韵律和声学编解码器获得:Ys = concat(Yp, Ya)

2. 风格混合语义密度模块(SMSD)

首次发现并分析了风格控制中的多对多问题: - 多对一:不同文本描述可对应同一音频(如"说话速度极快"和"语速非常快"说的是同一种风格) - 一对多:单一文本描述可对应不同程度的同一风格("快速"可能对应语速75、80或90)

SMSD 模块的核心设计: - 使用预训练 BERT 提取全局风格语义表示,将不同描述对齐到同一语义空间(解决多对一) - 基于混合密度网络(MDN)建模条件分布为 K 个高斯分布的混合,不同高斯对应同一风格的不同程度(解决一对多) - 引入噪声扰动机制增强风格多样性,支持四种扰动类型(全因子化、各向同性、跨簇各向同性、固定各向同性),实验表明跨簇各向同性效果最佳

3. 基于置信度的并行解码

采用基于 mask 的迭代生成方式,使用余弦调度采样遮罩比例,通过多次前向传递逐步生成离散声学 token,并根据置信度分数保留候选结果。

训练目标

总损失函数:L = L_codec + L_dur + L_SMSD - L_codec:编解码器生成的交叉熵损失 - L_dur:时长预测的均方误差损失 - L_SMSD:风格混合分布的负对数似然

实验关键数据

主实验

数据集:基于 TextrolSpeech 构建的 VccmDataset,包含精细标注的性别、音量、语速、音高和情感标签

风格可控性评估(Test Set A,1500样本)

模型 Pitch↑ Speed↑ Volume↑ Emotion↑ WER↓ MOS-Q↑
GT Codec 0.954 0.885 0.977 0.758 2.6 4.25
PromptTTS 2 0.867 0.785 0.825 0.406 3.1 3.83
InstructTTS 0.849 0.761 0.822 0.412 3.0 3.81
ControlSpeech 0.833 0.829 0.894 0.557 2.9 3.91
  • 在音量、语速、情感准确率上均达到最佳
  • WER 和 MOS-Q 也优于所有基线

音色克隆评估(Test Set B)

模型 WER↓ MOS-Q↑ MOS-S↑
VALL-E 6.7 3.76 3.89
MobileSpeech 4.1 3.94 4.01
ControlSpeech 3.3 3.95 3.96

多对多风格控制评估(Test Set D)

模型 MOS-TS↑ MOS-SA↑ MOS-SD↑
PromptStyle 3.81 3.45 3.53
InstructTTS 3.89 3.57 3.48
ControlSpeech w/o SMSD 3.95 3.59 3.66
ControlSpeech 4.01 3.84 4.05

关键发现

  1. 解耦的必要性:去掉解耦后,Pitch 从 0.833 降至 0.492,Speed 从 0.829 降至 0.517,验证了语音提示和风格提示确实会互相干扰
  2. SMSD 的有效性:去掉 SMSD 后 MOS-SA 降低 0.25,MOS-SD 降低 0.39,证明 SMSD 模块能显著提升风格精度和多样性
  3. 音高准确率略低于部分基线,原因是同时控制不同音色和风格增加了音高控制难度
  4. 跨簇各向同性噪声扰动在精度和多样性之间取得最佳平衡

亮点与洞察

  • 首次统一框架:将零样本音色克隆与零样本风格控制整合到同一系统中
  • 多对多问题的发现与解决:首次在风格可控TTS中识别并分析了多对多关系,与 PromptTTS 2 中的一对多问题本质不同
  • 预训练解耦空间的巧妙利用:通过使用大规模预训练的 FACodec 解耦表示空间,既实现了独立控制,又保证了零样本能力
  • 开源数据集贡献:发布 VccmDataset,填补了同时包含风格描述和说话人提示的大规模TTS数据集空白

局限性

  • 风格可控TTS领域仍缺乏更大规模(数万小时级别带风格描述)的训练数据集
  • 目前仅探索了离散解耦编解码器 + 非自回归并行生成模型的架构组合,未来可探索更多生成模型架构和音频表示
  • 音高控制在同时处理音色和风格时存在精度下降

相关工作

  • 零样本TTS:VALL-E(自回归 codec LM)、NaturalSpeech 2/3(连续/因子化扩散)、VoiceBox(流匹配infilling)、MobileSpeech(非自回归并行生成)
  • 风格可控TTS:PromptTTS/PromptTTS 2(文本提示控制风格)、InstructTTS(三阶段训练捕获风格语义)、TextrolSpeech(语言模型范式)、AudioBox(统一流匹配模型)
  • 关键区别:现有零样本TTS无法控制风格,风格可控TTS无法克隆音色,ControlSpeech 首次实现两者兼顾

评分

  • 创新性: ★★★★☆ — 提出SMSD模块解决多对多问题,首次在统一框架中实现音色+风格独立控制
  • 实用性: ★★★★☆ — 应用场景广泛(有声书、虚拟助手定制化),但依赖特定预训练编解码器
  • 实验充分度: ★★★★☆ — 四个测试集覆盖不同评估维度,消融实验充分,但缺乏跨语言评估
  • 写作质量: ★★★★☆ — 问题定义清晰,方法阐述详细,图表丰富