SpeechFake: A Large-Scale Multilingual Speech Deepfake Dataset Incorporating Cutting-Edge Generation Methods¶
会议: ACL 2025
arXiv: 2507.21463
代码: https://github.com/YMLLG/SpeechFake
领域: LLM/NLP
关键词: speech deepfake, detection dataset, multilingual, TTS, voice conversion
一句话总结¶
构建 SpeechFake,目前最大的语音深度伪造检测数据集——超 300 万样本、3000+ 小时、40 种生成工具(含最新 TTS/VC/Neural Vocoder)、46 种语言,在自有及未见测试集上展现强基线性能。
研究背景与动机¶
语音生成技术进步使深度伪造音频风险加剧。现有数据集规模/多样性不足(如 ASVspoof 仅英语、生成方法有限),难以训练泛化到未见伪造方法的检测模型。SpeechFake 在规模、生成方法覆盖和语言多样性上全面超越前作。
数据集特色¶
- 规模: 300 万+ 伪造样本,3000+ 小时
- 生成方法: 40 种工具覆盖 TTS、VC、Neural Vocoder,含最新方法
- 语言: 46 种语言(远超前作的 1-23 种)
- 对比: ASVspoof2021-DF 57 万样本/英语,MLAAD 8.2 万/23 语言
方法详解¶
整体框架¶
SpeechFake 分两部分:(1) 双语数据集 (BD):英语+中文各半,40 种生成工具(30 开源 + 10 商业 API)覆盖 TTS/VC/NV;(2) 多语言数据集 (MD):CommonVoice 真实语音 + 6 种多语言工具生成伪造语音,覆盖 46 种语言。
关键设计¶
- 生成方法分类:TTS(文本→语音)、VC(语音转换/克隆)、NV(神经声码器)三类,各有不同的伪造特征
- 质量过滤:VAD 去除 <0.5s 片段,人工抽检 ~1% 样本,标准化为 16kHz mono WAV
- 未见测试集 (BD-UT):仅含商业 API 生成的伪造语音,测试对未见工业级生成方法的泛化
实验关键数据¶
主实验(EER% 越低越好)¶
| 训练数据 | 模型 | BD 测试 | ASV19 | WaveFake | In-the-Wild |
|---|---|---|---|---|---|
| ASV19 | AASIST | 39.36% | 5.06% | 14.51% | 20.41% |
| BD | AASIST | 3.48% | 6.45% | 4.68% | 12.28% |
| BD | W2V+AASIST | 3.54% | 1.92% | 3.29% | 7.22% |
跨生成方法泛化¶
| 训练→测试 | AASIST EER |
|---|---|
| TTS→TTS | 0.44% |
| TTS→VC | 16.85% |
| TTS→NV | 25.66% |
| VC→VC | 2.18% |
| 全部→全部 | 14.26% |
跨语言泛化(训练英+中,测试其他语言)¶
| 语言 | AASIST (20ep) | W2V+AASIST (50ep) |
|---|---|---|
| English (seen) | 0.81% | 0.15% |
| Chinese (seen) | 2.14% | 0.50% |
| Spanish (unseen) | 14.60% → 3.74% | 0.12% |
| Hindi (unseen) | 26.06% | 0.98% |
| 9语言平均 | - | 0.50% |
关键发现¶
- 跨生成方法是最大挑战:TTS→VC 泛化 EER 达 16.85%,比跨语言更严重
- 多语言预训练至关重要:W2V XLSR 将跨语言 EER 从 14-26% 降至 <1%
- 训练数据多样性决定泛化能力:在 BD 上训练比 ASV19 泛化好 50-80%
- 商业 API 构成真实威胁:未见商业 API 测试仍有挑战
亮点与洞察¶
- 规模前所未有:300 万+ 样本、40 种工具、46 种语言——比 ASVspoof2021-DF (57万/英语) 大 5 倍且多样性远超。
- 含最新生成方法:覆盖 TTS/VC/Neural Vocoder 的最新方法,使检测模型不落后于攻击技术。
- 多样化训练增强泛化:用更多语言和说话人训练的检测模型在未见测试集上泛化更好。
局限性 / 可改进方向¶
- 数据集标注为二分类(真/假),未区分不同伪造方法的细粒度类别。部分语言覆盖可能不均衡。
相关工作与启发¶
- 详见论文原文 Related Work 部分。
- 本文在方法设计和实验规模上均超越已有工作,详细对比见论文 Table/Section。
- 与最接近的前作相比,本文在核心指标上有显著提升,详见实验部分。
方法特色补充¶
- 本文的核心方法具有良好的可扩展性和通用性,可推广到更多语言/领域/模型。
- 实验设计注重公平性和可复现性,数据和代码已开源或计划开源。
- 与同期工作相比,本文在至少一个核心维度上超越了现有SoTA。
- 论文writing清晰,方法动机阐述充分,实验分析深入。
评分¶
- 新颖性: ⭐⭐⭐ 数据集贡献为主
- 实验充分度: ⭐⭐⭐⭐ 详细消融(方法/语言/说话人影响)
- 写作质量: ⭐⭐⭐⭐ 统计清晰
- 价值: ⭐⭐⭐⭐⭐ 为语音伪造检测提供规模最大最多样的资源