Zero-Shot Text-to-Speech for Vietnamese¶

会议: ACL 2025
arXiv: 2506.01322
代码: https://huggingface.co/datasets/thivux/phoaudiobook（数据集）
领域: Audio & Speech / TTS
关键词: 零样本TTS, 越南语, PhoAudiobook, 语音合成, 低资源语言

一句话总结¶

针对越南语零样本TTS缺乏高质量长音频数据集的问题，构建了941小时的PhoAudiobook数据集，并在VALL-E、VoiceCraft和XTTS-v2三个SOTA零样本TTS模型上进行系统实验，证明PhoAudiobook显著提升了模型性能，其中XTTS-v2在长句合成上全面超越基线viXTTS，而VALL-E和VoiceCraft在短句合成上更具鲁棒性。

研究背景与动机¶

零样本TTS（zero-shot TTS）旨在仅用几秒参考音频即为未见过的说话人合成语音，是近年TTS领域的热点。VALL-E、VoiceCraft等基于语言建模的方法已在英语上取得令人瞩目的效果。

低资源语言的困境： - 越南语等低资源语言缺乏训练零样本TTS所需的大规模、高质量数据集 - 现有越南语语音数据集（VinBigData、BUD500、viVoice等）普遍存在关键缺陷： - 音频样本过短（通常<10秒），不适合需要长上下文的TTS模型 - 缺乏说话人标识（viVoice用YouTube频道名近似，但一个频道可能有多个说话人） - 文本未做规范化处理（数字→文字等） - 音频质量不一致（来自消费级设备、背景噪音）

本文贡献：不是提出新的TTS模型架构，而是聚焦于数据集建设——构建一个真正适合零样本TTS训练的越南语大规模音频数据集，并在此基础上验证现有SOTA模型在越南语上的表现。

方法详解¶

整体框架¶

构建PhoAudiobook数据集：从有声书原始音频出发，经过背景去除→转录→质量过滤→说话人分离→文本规范化的完整流水线
在PhoAudiobook上训练VALL-E、VoiceCraft、XTTS-v2三个零样本TTS模型
通过客观和主观指标在多个测试集上与基线viXTTS进行对比评估

关键设计¶

PhoAudiobook数据集构建流水线：
- 原始数据采集：从公开有声书网站收集23K小时音频，2,697本有声书，735位说话人
- 背景音乐去除：使用demucs提取人声轨道
- 转录生成：Whisper-large-v3生成转录和时间戳
- 长音频合并：将连续短音频段拼接为10-20秒的长样本（这是关键创新——其他数据集音频均<10秒）
- 双模型交叉验证：Whisper-large-v3和PhoWhisper-large分别生成转录，仅保留两者完全一致的样本——确保转录质量
- 多说话人过滤：使用wav2vec2-bartpho模型识别并过滤包含多说话人的音频
- 后处理：剔除过短转录（<25词）、修剪首尾静音、音量归一化
- 文本规范化：通过微调mbart-large-50模型处理数字→文字等转换
- 说话人平衡：每位说话人上限4小时，最终941小时/735位说话人
数据增强策略：
- 将940小时训练集作为新的原始数据重新走流水线，但跳过长音频合并和短样本过滤步骤
- 额外获得554小时短音频，总训练数据达1494小时
- 设计动机：确保模型能处理不同长度的输入文本
评估体系设计：
- 4个测试集：PhoAudiobook-Seen（已见说话人）、PhoAudiobook-Unseen（未见说话人）、VIVOS（外分布短音频）、viVoice（外分布）
- 客观指标：WER（可懂度）、MCD（频谱相似度）、RMSE_F0（韵律匹配）
- 主观指标：MOS（整体质量，1-5分）、SMOS（说话人相似度，1-5分）
- 10-20位母语评估者，模型名匿名随机化

损失函数 / 训练策略¶

三个模型各自使用标准训练流程： - VALL-E：条件性codec语言建模 - VoiceCraft：token重排+左到右语言建模 - XTTS-v2：基于Tortoise架构的多语言微调均在1494小时的增强训练集上训练。

实验关键数据¶

主实验（客观指标）¶

模型	PAB-S WER↓	PAB-U WER↓	VIVOS WER↓	viVoice WER↓
VALL-E_PAB	24.96	12.90	12.63	13.58
VoiceCraft_PAB	7.53	15.14	13.53	21.70
XTTS-v2_PAB	4.16	4.31	37.81	8.32
viXTTS（基线）	4.23	5.17	37.81	12.54

模型	PAB-S MCD↓	PAB-U RMSE_F0↓	viVoice MCD↓
XTTS-v2_PAB	6.30	242.51	8.34
viXTTS	7.47	271.70	8.71

主实验（主观指标）¶

模型	PAB-S MOS↑	PAB-U MOS↑	VIVOS MOS↑	viVoice MOS↑
XTTS-v2_PAB	4.20	3.89	2.79	3.98
VoiceCraft_PAB	4.16	3.75	3.85	3.98
VALL-E_PAB	3.96	4.04	3.44	3.75
viXTTS	4.05	3.85	2.37	3.48

模型	PAB-S SMOS↑	PAB-U SMOS↑	VIVOS SMOS↑	viVoice SMOS↑
VALL-E_PAB	3.77	3.46	3.35	3.20
XTTS-v2_PAB	3.55	3.56	3.03	3.39
viXTTS	2.88	2.63	2.48	3.11

消融实验¶

分析维度	关键发现
PhoAudiobook vs viVoice	XTTS-v2_PAB在viVoice测试集上WER 8.32显著优于viXTTS的12.54，即使后者在该数据上训练过
长句 vs 短句	VALL-E和VoiceCraft在VIVOS短句集上远优于XTTS-v2（WER 12-13 vs 37.81）
XTTS-v2短句问题	对短输入文本会生成冗余/啰嗦的尾部语音，是架构问题而非数据问题
数据质量	PhoAudiobook的SI-SNR（4.91dB）为所有数据集最高，说话人ID明确

关键发现¶

PhoAudiobook一致性地提升了所有模型的性能，验证了高质量数据对低资源语言TTS的关键作用
XTTS-v2在长句合成上全面领先，但在短句上存在架构级缺陷（生成冗余尾音）
VALL-E和VoiceCraft在短句场景下更加稳健，具有互补性
说话人相似度（SMOS）方面，训练在PhoAudiobook上的模型大幅优于viXTTS（最多+0.87分）
数据集的音频长度分布对模型行为有直接影响（10-20s训练样本有助于长句合成）

亮点与洞察¶

数据集构建流水线可复用：从有声书→高质量TTS数据集的全流程可直接迁移到其他低资源语言，具有高度工程价值
双ASR交叉验证：同时用Whisper和PhoWhisper验证转录准确性，仅保留一致结果——这种策略在任何语音数据集构建中都值得借鉴
数据增强的巧思：将训练集重走一遍流水线但跳过合并步骤来获取短音频增强，简单但有效地解决了输入长度泛化问题
客观事实：在低资源语言TTS中，数据质量往往比模型选择更重要——XTTS-v2在PhoAudiobook上训练后，在viXTTS自己的训练数据上表现都更好

局限与展望¶

未评估代码混合（越南语+英语）场景下的表现
有声书领域导致语速偏慢（201 wpm vs 其他数据集229-243 wpm），可能影响对快速语音的泛化
仅限非商业用途，限制了实际应用
未探索更新的TTS模型（如CosyVoice等）的表现
Hard任务仅40个样本，统计可靠性不足
16kHz采样率低于部分高质量TTS研究的标准（24kHz+）

评分¶

新颖性: ⭐⭐⭐ 数据集构建有工程创新但方法学新意有限
实验充分度: ⭐⭐⭐⭐ 3个模型、4个测试集、客观+主观指标全面覆盖
写作质量: ⭐⭐⭐⭐ 数据集描述详细，实验设计规范，可复现性强
价值: ⭐⭐⭐⭐ 对越南语TTS社区有直接推动，流水线设计对其他低资源语言有参考价值