Zero-Shot Text-to-Speech for Vietnamese¶
会议: ACL 2025
arXiv: 2506.01322
代码: https://huggingface.co/datasets/thivux/phoaudiobook(数据集)
领域: Audio & Speech / TTS
关键词: 零样本TTS, 越南语, PhoAudiobook, 语音合成, 低资源语言
一句话总结¶
针对越南语零样本TTS缺乏高质量长音频数据集的问题,构建了941小时的PhoAudiobook数据集,并在VALL-E、VoiceCraft和XTTS-v2三个SOTA零样本TTS模型上进行系统实验,证明PhoAudiobook显著提升了模型性能,其中XTTS-v2在长句合成上全面超越基线viXTTS,而VALL-E和VoiceCraft在短句合成上更具鲁棒性。
研究背景与动机¶
零样本TTS(zero-shot TTS)旨在仅用几秒参考音频即为未见过的说话人合成语音,是近年TTS领域的热点。VALL-E、VoiceCraft等基于语言建模的方法已在英语上取得令人瞩目的效果。
低资源语言的困境: - 越南语等低资源语言缺乏训练零样本TTS所需的大规模、高质量数据集 - 现有越南语语音数据集(VinBigData、BUD500、viVoice等)普遍存在关键缺陷: - 音频样本过短(通常<10秒),不适合需要长上下文的TTS模型 - 缺乏说话人标识(viVoice用YouTube频道名近似,但一个频道可能有多个说话人) - 文本未做规范化处理(数字→文字等) - 音频质量不一致(来自消费级设备、背景噪音)
本文贡献:不是提出新的TTS模型架构,而是聚焦于数据集建设——构建一个真正适合零样本TTS训练的越南语大规模音频数据集,并在此基础上验证现有SOTA模型在越南语上的表现。
方法详解¶
整体框架¶
- 构建PhoAudiobook数据集:从有声书原始音频出发,经过背景去除→转录→质量过滤→说话人分离→文本规范化的完整流水线
- 在PhoAudiobook上训练VALL-E、VoiceCraft、XTTS-v2三个零样本TTS模型
- 通过客观和主观指标在多个测试集上与基线viXTTS进行对比评估
关键设计¶
-
PhoAudiobook数据集构建流水线:
- 原始数据采集:从公开有声书网站收集23K小时音频,2,697本有声书,735位说话人
- 背景音乐去除:使用demucs提取人声轨道
- 转录生成:Whisper-large-v3生成转录和时间戳
- 长音频合并:将连续短音频段拼接为10-20秒的长样本(这是关键创新——其他数据集音频均<10秒)
- 双模型交叉验证:Whisper-large-v3和PhoWhisper-large分别生成转录,仅保留两者完全一致的样本——确保转录质量
- 多说话人过滤:使用wav2vec2-bartpho模型识别并过滤包含多说话人的音频
- 后处理:剔除过短转录(<25词)、修剪首尾静音、音量归一化
- 文本规范化:通过微调mbart-large-50模型处理数字→文字等转换
- 说话人平衡:每位说话人上限4小时,最终941小时/735位说话人
-
数据增强策略:
- 将940小时训练集作为新的原始数据重新走流水线,但跳过长音频合并和短样本过滤步骤
- 额外获得554小时短音频,总训练数据达1494小时
- 设计动机:确保模型能处理不同长度的输入文本
-
评估体系设计:
- 4个测试集:PhoAudiobook-Seen(已见说话人)、PhoAudiobook-Unseen(未见说话人)、VIVOS(外分布短音频)、viVoice(外分布)
- 客观指标:WER(可懂度)、MCD(频谱相似度)、RMSE_F0(韵律匹配)
- 主观指标:MOS(整体质量,1-5分)、SMOS(说话人相似度,1-5分)
- 10-20位母语评估者,模型名匿名随机化
损失函数 / 训练策略¶
三个模型各自使用标准训练流程: - VALL-E:条件性codec语言建模 - VoiceCraft:token重排+左到右语言建模 - XTTS-v2:基于Tortoise架构的多语言微调 均在1494小时的增强训练集上训练。
实验关键数据¶
主实验(客观指标)¶
| 模型 | PAB-S WER↓ | PAB-U WER↓ | VIVOS WER↓ | viVoice WER↓ |
|---|---|---|---|---|
| VALL-E_PAB | 24.96 | 12.90 | 12.63 | 13.58 |
| VoiceCraft_PAB | 7.53 | 15.14 | 13.53 | 21.70 |
| XTTS-v2_PAB | 4.16 | 4.31 | 37.81 | 8.32 |
| viXTTS(基线) | 4.23 | 5.17 | 37.81 | 12.54 |
| 模型 | PAB-S MCD↓ | PAB-U RMSE_F0↓ | viVoice MCD↓ |
|---|---|---|---|
| XTTS-v2_PAB | 6.30 | 242.51 | 8.34 |
| viXTTS | 7.47 | 271.70 | 8.71 |
主实验(主观指标)¶
| 模型 | PAB-S MOS↑ | PAB-U MOS↑ | VIVOS MOS↑ | viVoice MOS↑ |
|---|---|---|---|---|
| XTTS-v2_PAB | 4.20 | 3.89 | 2.79 | 3.98 |
| VoiceCraft_PAB | 4.16 | 3.75 | 3.85 | 3.98 |
| VALL-E_PAB | 3.96 | 4.04 | 3.44 | 3.75 |
| viXTTS | 4.05 | 3.85 | 2.37 | 3.48 |
| 模型 | PAB-S SMOS↑ | PAB-U SMOS↑ | VIVOS SMOS↑ | viVoice SMOS↑ |
|---|---|---|---|---|
| VALL-E_PAB | 3.77 | 3.46 | 3.35 | 3.20 |
| XTTS-v2_PAB | 3.55 | 3.56 | 3.03 | 3.39 |
| viXTTS | 2.88 | 2.63 | 2.48 | 3.11 |
消融实验¶
| 分析维度 | 关键发现 |
|---|---|
| PhoAudiobook vs viVoice | XTTS-v2_PAB在viVoice测试集上WER 8.32显著优于viXTTS的12.54,即使后者在该数据上训练过 |
| 长句 vs 短句 | VALL-E和VoiceCraft在VIVOS短句集上远优于XTTS-v2(WER 12-13 vs 37.81) |
| XTTS-v2短句问题 | 对短输入文本会生成冗余/啰嗦的尾部语音,是架构问题而非数据问题 |
| 数据质量 | PhoAudiobook的SI-SNR(4.91dB)为所有数据集最高,说话人ID明确 |
关键发现¶
- PhoAudiobook一致性地提升了所有模型的性能,验证了高质量数据对低资源语言TTS的关键作用
- XTTS-v2在长句合成上全面领先,但在短句上存在架构级缺陷(生成冗余尾音)
- VALL-E和VoiceCraft在短句场景下更加稳健,具有互补性
- 说话人相似度(SMOS)方面,训练在PhoAudiobook上的模型大幅优于viXTTS(最多+0.87分)
- 数据集的音频长度分布对模型行为有直接影响(10-20s训练样本有助于长句合成)
亮点与洞察¶
- 数据集构建流水线可复用:从有声书→高质量TTS数据集的全流程可直接迁移到其他低资源语言,具有高度工程价值
- 双ASR交叉验证:同时用Whisper和PhoWhisper验证转录准确性,仅保留一致结果——这种策略在任何语音数据集构建中都值得借鉴
- 数据增强的巧思:将训练集重走一遍流水线但跳过合并步骤来获取短音频增强,简单但有效地解决了输入长度泛化问题
- 客观事实:在低资源语言TTS中,数据质量往往比模型选择更重要——XTTS-v2在PhoAudiobook上训练后,在viXTTS自己的训练数据上表现都更好
局限与展望¶
- 未评估代码混合(越南语+英语)场景下的表现
- 有声书领域导致语速偏慢(201 wpm vs 其他数据集229-243 wpm),可能影响对快速语音的泛化
- 仅限非商业用途,限制了实际应用
- 未探索更新的TTS模型(如CosyVoice等)的表现
- Hard任务仅40个样本,统计可靠性不足
- 16kHz采样率低于部分高质量TTS研究的标准(24kHz+)
相关工作与启发¶
- VALL-E (Wang et al., 2023) 开创了codec语言建模的TTS范式,本文将其扩展到越南语
- VoiceCraft (Peng et al., 2024) 的token重排策略在零样本TTS和语音编辑上效果好
- XTTS-v2 (Casanova et al., 2024) 是当前最强的多语言零样本TTS,但本文揭示了其短文本缺陷
- 启发:低资源语言TTS研究的首要瓶颈是数据而非模型。有声书作为语音数据来源有独特优势——录制专业、内容长、说话人可识别——值得在更多语言上推广
评分¶
- 新颖性: ⭐⭐⭐ 数据集构建有工程创新但方法学新意有限
- 实验充分度: ⭐⭐⭐⭐ 3个模型、4个测试集、客观+主观指标全面覆盖
- 写作质量: ⭐⭐⭐⭐ 数据集描述详细,实验设计规范,可复现性强
- 价值: ⭐⭐⭐⭐ 对越南语TTS社区有直接推动,流水线设计对其他低资源语言有参考价值
相关论文¶
- [ACL 2025] Advancing Zero-shot Text-to-Speech Intelligibility across Diverse Domains via Preference Alignment
- [ACL 2025] ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control
- [ICCV 2025] Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
- [ACL 2025] TCSinger 2: Customizable Multilingual Zero-shot Singing Voice Synthesis
- [ACL 2025] SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models