ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control¶

会议: ACL 2025
arXiv: 2406.01205
领域: LLM NLP / 语音合成
关键词: 零样本语音合成, 风格可控TTS, 音色克隆, 离散编解码器解耦, 混合高斯密度网络

一句话总结¶

ControlSpeech 是首个同时实现零样本音色克隆和零样本语言风格控制的TTS系统，通过离散编解码器空间中的解耦表示和风格混合语义密度（SMSD）模块解决了风格控制中的多对多问题。

研究背景与动机¶

现有零样本TTS的局限：以 VALL-E 为代表的零样本TTS模型能克隆说话人音色，但风格固定、无法进一步控制或调整
现有风格可控TTS的局限：PromptTTS 2、InstructTTS 等风格可控模型能合成任意风格语音，但无法指定音色或进行零样本音色克隆
核心需求：同时独立地控制内容（content）、音色（timbre）和风格（style），例如"用特朗普的声音以孩童的欢快风格说'今天是周一'"
两大挑战：
风格提示和语音提示的信息可能纠缠互相干扰（语音提示中的风格可能与文本风格描述矛盾）
缺乏同时包含风格描述文本和说话人提示的大规模数据集

方法详解¶

整体框架¶

ControlSpeech 本质上是一个编码器-解码器的并行编解码器生成模型，包含三个独立编码器：

文本编码器：将内容文本转为音素并编码
风格编码器：使用 BERT tokenizer 对风格文本进行词级编码，提取 [CLS] 全局风格表示
语音编码器：使用预训练的 FACodec 编码器提取音色信息

生成过程分两阶段： - 第一阶段通过基于 mask 的并行解码器（Conformer）生成离散编解码器表示 - 第二阶段通过条件归一化层融合音色嵌入，输入预训练解码器生成最终语音

关键设计¶

1. 编解码器解耦（Codec Decoupling）¶

利用 FACodec（预训练在 60,000 小时数据上）将语音分解为： - 内容编解码器 Yc：语义内容表示 - 韵律编解码器 Yp：韵律信息 - 声学编解码器 Ya：声学细节 - 音色嵌入 Yt：全局音色向量

风格编解码器 Ys 通过拼接韵律和声学编解码器获得：Ys = concat(Yp, Ya)

2. 风格混合语义密度模块（SMSD）¶

首次发现并分析了风格控制中的多对多问题： - 多对一：不同文本描述可对应同一音频（如"说话速度极快"和"语速非常快"说的是同一种风格） - 一对多：单一文本描述可对应不同程度的同一风格（"快速"可能对应语速75、80或90）

SMSD 模块的核心设计： - 使用预训练 BERT 提取全局风格语义表示，将不同描述对齐到同一语义空间（解决多对一） - 基于混合密度网络（MDN）建模条件分布为 K 个高斯分布的混合，不同高斯对应同一风格的不同程度（解决一对多） - 引入噪声扰动机制增强风格多样性，支持四种扰动类型（全因子化、各向同性、跨簇各向同性、固定各向同性），实验表明跨簇各向同性效果最佳

3. 基于置信度的并行解码¶

采用基于 mask 的迭代生成方式，使用余弦调度采样遮罩比例，通过多次前向传递逐步生成离散声学 token，并根据置信度分数保留候选结果。

训练目标¶

总损失函数：L = L_codec + L_dur + L_SMSD - L_codec：编解码器生成的交叉熵损失 - L_dur：时长预测的均方误差损失 - L_SMSD：风格混合分布的负对数似然

实验关键数据¶

主实验¶

数据集：基于 TextrolSpeech 构建的 VccmDataset，包含精细标注的性别、音量、语速、音高和情感标签

风格可控性评估（Test Set A，1500样本）：

模型	Pitch↑	Speed↑	Volume↑	Emotion↑	WER↓	MOS-Q↑
GT Codec	0.954	0.885	0.977	0.758	2.6	4.25
PromptTTS 2	0.867	0.785	0.825	0.406	3.1	3.83
InstructTTS	0.849	0.761	0.822	0.412	3.0	3.81
ControlSpeech	0.833	0.829	0.894	0.557	2.9	3.91

在音量、语速、情感准确率上均达到最佳
WER 和 MOS-Q 也优于所有基线

音色克隆评估（Test Set B）：

模型	WER↓	MOS-Q↑	MOS-S↑
VALL-E	6.7	3.76	3.89
MobileSpeech	4.1	3.94	4.01
ControlSpeech	3.3	3.95	3.96

多对多风格控制评估（Test Set D）：

模型	MOS-TS↑	MOS-SA↑	MOS-SD↑
PromptStyle	3.81	3.45	3.53
InstructTTS	3.89	3.57	3.48
ControlSpeech w/o SMSD	3.95	3.59	3.66
ControlSpeech	4.01	3.84	4.05

关键发现¶

解耦的必要性：去掉解耦后，Pitch 从 0.833 降至 0.492，Speed 从 0.829 降至 0.517，验证了语音提示和风格提示确实会互相干扰
SMSD 的有效性：去掉 SMSD 后 MOS-SA 降低 0.25，MOS-SD 降低 0.39，证明 SMSD 模块能显著提升风格精度和多样性
音高准确率略低于部分基线，原因是同时控制不同音色和风格增加了音高控制难度
跨簇各向同性噪声扰动在精度和多样性之间取得最佳平衡

亮点与洞察¶

首次统一框架：将零样本音色克隆与零样本风格控制整合到同一系统中
多对多问题的发现与解决：首次在风格可控TTS中识别并分析了多对多关系，与 PromptTTS 2 中的一对多问题本质不同
预训练解耦空间的巧妙利用：通过使用大规模预训练的 FACodec 解耦表示空间，既实现了独立控制，又保证了零样本能力
开源数据集贡献：发布 VccmDataset，填补了同时包含风格描述和说话人提示的大规模TTS数据集空白

局限性¶

风格可控TTS领域仍缺乏更大规模（数万小时级别带风格描述）的训练数据集
目前仅探索了离散解耦编解码器 + 非自回归并行生成模型的架构组合，未来可探索更多生成模型架构和音频表示
音高控制在同时处理音色和风格时存在精度下降

评分¶

创新性: ★★★★☆ — 提出SMSD模块解决多对多问题，首次在统一框架中实现音色+风格独立控制
实用性: ★★★★☆ — 应用场景广泛（有声书、虚拟助手定制化），但依赖特定预训练编解码器
实验充分度: ★★★★☆ — 四个测试集覆盖不同评估维度，消融实验充分，但缺乏跨语言评估
写作质量: ★★★★☆ — 问题定义清晰，方法阐述详细，图表丰富