跳转至

Zero-Shot Text-to-Speech for Vietnamese

会议: ACL 2025
arXiv: 2506.01322
代码: https://huggingface.co/datasets/thivux/phoaudiobook(数据集)
领域: Audio & Speech / TTS
关键词: 零样本TTS, 越南语, PhoAudiobook, 语音合成, 低资源语言

一句话总结

针对越南语零样本TTS缺乏高质量长音频数据集的问题,构建了941小时的PhoAudiobook数据集,并在VALL-E、VoiceCraft和XTTS-v2三个SOTA零样本TTS模型上进行系统实验,证明PhoAudiobook显著提升了模型性能,其中XTTS-v2在长句合成上全面超越基线viXTTS,而VALL-E和VoiceCraft在短句合成上更具鲁棒性。

研究背景与动机

零样本TTS(zero-shot TTS)旨在仅用几秒参考音频即为未见过的说话人合成语音,是近年TTS领域的热点。VALL-E、VoiceCraft等基于语言建模的方法已在英语上取得令人瞩目的效果。

低资源语言的困境: - 越南语等低资源语言缺乏训练零样本TTS所需的大规模、高质量数据集 - 现有越南语语音数据集(VinBigData、BUD500、viVoice等)普遍存在关键缺陷: - 音频样本过短(通常<10秒),不适合需要长上下文的TTS模型 - 缺乏说话人标识(viVoice用YouTube频道名近似,但一个频道可能有多个说话人) - 文本未做规范化处理(数字→文字等) - 音频质量不一致(来自消费级设备、背景噪音)

本文贡献:不是提出新的TTS模型架构,而是聚焦于数据集建设——构建一个真正适合零样本TTS训练的越南语大规模音频数据集,并在此基础上验证现有SOTA模型在越南语上的表现。

方法详解

整体框架

  1. 构建PhoAudiobook数据集:从有声书原始音频出发,经过背景去除→转录→质量过滤→说话人分离→文本规范化的完整流水线
  2. 在PhoAudiobook上训练VALL-E、VoiceCraft、XTTS-v2三个零样本TTS模型
  3. 通过客观和主观指标在多个测试集上与基线viXTTS进行对比评估

关键设计

  1. PhoAudiobook数据集构建流水线

    • 原始数据采集:从公开有声书网站收集23K小时音频,2,697本有声书,735位说话人
    • 背景音乐去除:使用demucs提取人声轨道
    • 转录生成:Whisper-large-v3生成转录和时间戳
    • 长音频合并:将连续短音频段拼接为10-20秒的长样本(这是关键创新——其他数据集音频均<10秒)
    • 双模型交叉验证:Whisper-large-v3和PhoWhisper-large分别生成转录,仅保留两者完全一致的样本——确保转录质量
    • 多说话人过滤:使用wav2vec2-bartpho模型识别并过滤包含多说话人的音频
    • 后处理:剔除过短转录(<25词)、修剪首尾静音、音量归一化
    • 文本规范化:通过微调mbart-large-50模型处理数字→文字等转换
    • 说话人平衡:每位说话人上限4小时,最终941小时/735位说话人
  2. 数据增强策略

    • 将940小时训练集作为新的原始数据重新走流水线,但跳过长音频合并和短样本过滤步骤
    • 额外获得554小时短音频,总训练数据达1494小时
    • 设计动机:确保模型能处理不同长度的输入文本
  3. 评估体系设计

    • 4个测试集:PhoAudiobook-Seen(已见说话人)、PhoAudiobook-Unseen(未见说话人)、VIVOS(外分布短音频)、viVoice(外分布)
    • 客观指标:WER(可懂度)、MCD(频谱相似度)、RMSE_F0(韵律匹配)
    • 主观指标:MOS(整体质量,1-5分)、SMOS(说话人相似度,1-5分)
    • 10-20位母语评估者,模型名匿名随机化

损失函数 / 训练策略

三个模型各自使用标准训练流程: - VALL-E:条件性codec语言建模 - VoiceCraft:token重排+左到右语言建模 - XTTS-v2:基于Tortoise架构的多语言微调 均在1494小时的增强训练集上训练。

实验关键数据

主实验(客观指标)

模型 PAB-S WER↓ PAB-U WER↓ VIVOS WER↓ viVoice WER↓
VALL-E_PAB 24.96 12.90 12.63 13.58
VoiceCraft_PAB 7.53 15.14 13.53 21.70
XTTS-v2_PAB 4.16 4.31 37.81 8.32
viXTTS(基线) 4.23 5.17 37.81 12.54
模型 PAB-S MCD↓ PAB-U RMSE_F0↓ viVoice MCD↓
XTTS-v2_PAB 6.30 242.51 8.34
viXTTS 7.47 271.70 8.71

主实验(主观指标)

模型 PAB-S MOS↑ PAB-U MOS↑ VIVOS MOS↑ viVoice MOS↑
XTTS-v2_PAB 4.20 3.89 2.79 3.98
VoiceCraft_PAB 4.16 3.75 3.85 3.98
VALL-E_PAB 3.96 4.04 3.44 3.75
viXTTS 4.05 3.85 2.37 3.48
模型 PAB-S SMOS↑ PAB-U SMOS↑ VIVOS SMOS↑ viVoice SMOS↑
VALL-E_PAB 3.77 3.46 3.35 3.20
XTTS-v2_PAB 3.55 3.56 3.03 3.39
viXTTS 2.88 2.63 2.48 3.11

消融实验

分析维度 关键发现
PhoAudiobook vs viVoice XTTS-v2_PAB在viVoice测试集上WER 8.32显著优于viXTTS的12.54,即使后者在该数据上训练过
长句 vs 短句 VALL-E和VoiceCraft在VIVOS短句集上远优于XTTS-v2(WER 12-13 vs 37.81)
XTTS-v2短句问题 对短输入文本会生成冗余/啰嗦的尾部语音,是架构问题而非数据问题
数据质量 PhoAudiobook的SI-SNR(4.91dB)为所有数据集最高,说话人ID明确

关键发现

  • PhoAudiobook一致性地提升了所有模型的性能,验证了高质量数据对低资源语言TTS的关键作用
  • XTTS-v2在长句合成上全面领先,但在短句上存在架构级缺陷(生成冗余尾音)
  • VALL-E和VoiceCraft在短句场景下更加稳健,具有互补性
  • 说话人相似度(SMOS)方面,训练在PhoAudiobook上的模型大幅优于viXTTS(最多+0.87分)
  • 数据集的音频长度分布对模型行为有直接影响(10-20s训练样本有助于长句合成)

亮点与洞察

  • 数据集构建流水线可复用:从有声书→高质量TTS数据集的全流程可直接迁移到其他低资源语言,具有高度工程价值
  • 双ASR交叉验证:同时用Whisper和PhoWhisper验证转录准确性,仅保留一致结果——这种策略在任何语音数据集构建中都值得借鉴
  • 数据增强的巧思:将训练集重走一遍流水线但跳过合并步骤来获取短音频增强,简单但有效地解决了输入长度泛化问题
  • 客观事实:在低资源语言TTS中,数据质量往往比模型选择更重要——XTTS-v2在PhoAudiobook上训练后,在viXTTS自己的训练数据上表现都更好

局限与展望

  • 未评估代码混合(越南语+英语)场景下的表现
  • 有声书领域导致语速偏慢(201 wpm vs 其他数据集229-243 wpm),可能影响对快速语音的泛化
  • 仅限非商业用途,限制了实际应用
  • 未探索更新的TTS模型(如CosyVoice等)的表现
  • Hard任务仅40个样本,统计可靠性不足
  • 16kHz采样率低于部分高质量TTS研究的标准(24kHz+)

相关工作与启发

  • VALL-E (Wang et al., 2023) 开创了codec语言建模的TTS范式,本文将其扩展到越南语
  • VoiceCraft (Peng et al., 2024) 的token重排策略在零样本TTS和语音编辑上效果好
  • XTTS-v2 (Casanova et al., 2024) 是当前最强的多语言零样本TTS,但本文揭示了其短文本缺陷
  • 启发:低资源语言TTS研究的首要瓶颈是数据而非模型。有声书作为语音数据来源有独特优势——录制专业、内容长、说话人可识别——值得在更多语言上推广

评分

  • 新颖性: ⭐⭐⭐ 数据集构建有工程创新但方法学新意有限
  • 实验充分度: ⭐⭐⭐⭐ 3个模型、4个测试集、客观+主观指标全面覆盖
  • 写作质量: ⭐⭐⭐⭐ 数据集描述详细,实验设计规范,可复现性强
  • 价值: ⭐⭐⭐⭐ 对越南语TTS社区有直接推动,流水线设计对其他低资源语言有参考价值

相关论文