跳转至

SpeechFake: A Large-Scale Multilingual Speech Deepfake Dataset Incorporating Cutting-Edge Generation Methods

会议: ACL 2025
arXiv: 2507.21463
代码: https://github.com/YMLLG/SpeechFake
领域: LLM/NLP
关键词: speech deepfake, detection dataset, multilingual, TTS, voice conversion

一句话总结

构建 SpeechFake,目前最大的语音深度伪造检测数据集——超 300 万样本、3000+ 小时、40 种生成工具(含最新 TTS/VC/Neural Vocoder)、46 种语言,在自有及未见测试集上展现强基线性能。

研究背景与动机

语音生成技术进步使深度伪造音频风险加剧。现有数据集规模/多样性不足(如 ASVspoof 仅英语、生成方法有限),难以训练泛化到未见伪造方法的检测模型。SpeechFake 在规模、生成方法覆盖和语言多样性上全面超越前作。

数据集特色

  • 规模: 300 万+ 伪造样本,3000+ 小时
  • 生成方法: 40 种工具覆盖 TTS、VC、Neural Vocoder,含最新方法
  • 语言: 46 种语言(远超前作的 1-23 种)
  • 对比: ASVspoof2021-DF 57 万样本/英语,MLAAD 8.2 万/23 语言

方法详解

整体框架

SpeechFake 分两部分:(1) 双语数据集 (BD):英语+中文各半,40 种生成工具(30 开源 + 10 商业 API)覆盖 TTS/VC/NV;(2) 多语言数据集 (MD):CommonVoice 真实语音 + 6 种多语言工具生成伪造语音,覆盖 46 种语言。

关键设计

  1. 生成方法分类:TTS(文本→语音)、VC(语音转换/克隆)、NV(神经声码器)三类,各有不同的伪造特征
  2. 质量过滤:VAD 去除 <0.5s 片段,人工抽检 ~1% 样本,标准化为 16kHz mono WAV
  3. 未见测试集 (BD-UT):仅含商业 API 生成的伪造语音,测试对未见工业级生成方法的泛化

实验关键数据

主实验(EER% 越低越好)

训练数据 模型 BD 测试 ASV19 WaveFake In-the-Wild
ASV19 AASIST 39.36% 5.06% 14.51% 20.41%
BD AASIST 3.48% 6.45% 4.68% 12.28%
BD W2V+AASIST 3.54% 1.92% 3.29% 7.22%

跨生成方法泛化

训练→测试 AASIST EER
TTS→TTS 0.44%
TTS→VC 16.85%
TTS→NV 25.66%
VC→VC 2.18%
全部→全部 14.26%

跨语言泛化(训练英+中,测试其他语言)

语言 AASIST (20ep) W2V+AASIST (50ep)
English (seen) 0.81% 0.15%
Chinese (seen) 2.14% 0.50%
Spanish (unseen) 14.60% → 3.74% 0.12%
Hindi (unseen) 26.06% 0.98%
9语言平均 - 0.50%

关键发现

  • 跨生成方法是最大挑战:TTS→VC 泛化 EER 达 16.85%,比跨语言更严重
  • 多语言预训练至关重要:W2V XLSR 将跨语言 EER 从 14-26% 降至 <1%
  • 训练数据多样性决定泛化能力:在 BD 上训练比 ASV19 泛化好 50-80%
  • 商业 API 构成真实威胁:未见商业 API 测试仍有挑战

亮点与洞察

  • 规模前所未有:300 万+ 样本、40 种工具、46 种语言——比 ASVspoof2021-DF (57万/英语) 大 5 倍且多样性远超。
  • 含最新生成方法:覆盖 TTS/VC/Neural Vocoder 的最新方法,使检测模型不落后于攻击技术。
  • 多样化训练增强泛化:用更多语言和说话人训练的检测模型在未见测试集上泛化更好。

局限性 / 可改进方向

  • 数据集标注为二分类(真/假),未区分不同伪造方法的细粒度类别。部分语言覆盖可能不均衡。

相关工作与启发

  • 详见论文原文 Related Work 部分。
  • 本文在方法设计和实验规模上均超越已有工作,详细对比见论文 Table/Section。
  • 与最接近的前作相比,本文在核心指标上有显著提升,详见实验部分。

方法特色补充

  • 本文的核心方法具有良好的可扩展性和通用性,可推广到更多语言/领域/模型。
  • 实验设计注重公平性和可复现性,数据和代码已开源或计划开源。
  • 与同期工作相比,本文在至少一个核心维度上超越了现有SoTA。
  • 论文writing清晰,方法动机阐述充分,实验分析深入。

评分

  • 新颖性: ⭐⭐⭐ 数据集贡献为主
  • 实验充分度: ⭐⭐⭐⭐ 详细消融(方法/语言/说话人影响)
  • 写作质量: ⭐⭐⭐⭐ 统计清晰
  • 价值: ⭐⭐⭐⭐⭐ 为语音伪造检测提供规模最大最多样的资源