SpeechFake: A Large-Scale Multilingual Speech Deepfake Dataset Incorporating Cutting-Edge Generation Methods¶

会议: ACL 2025
arXiv: 2507.21463
代码: https://github.com/YMLLG/SpeechFake
领域: LLM/NLP
关键词: speech deepfake, detection dataset, multilingual, TTS, voice conversion

一句话总结¶

构建 SpeechFake，目前最大的语音深度伪造检测数据集——超 300 万样本、3000+ 小时、40 种生成工具（含最新 TTS/VC/Neural Vocoder）、46 种语言，在自有及未见测试集上展现强基线性能。

研究背景与动机¶

语音生成技术进步使深度伪造音频风险加剧。现有数据集规模/多样性不足（如 ASVspoof 仅英语、生成方法有限），难以训练泛化到未见伪造方法的检测模型。SpeechFake 在规模、生成方法覆盖和语言多样性上全面超越前作。

数据集特色¶

规模: 300 万+ 伪造样本，3000+ 小时
生成方法: 40 种工具覆盖 TTS、VC、Neural Vocoder，含最新方法
语言: 46 种语言（远超前作的 1-23 种）
对比: ASVspoof2021-DF 57 万样本/英语，MLAAD 8.2 万/23 语言

方法详解¶

整体框架¶

SpeechFake 分两部分：(1) 双语数据集 (BD)：英语+中文各半，40 种生成工具（30 开源 + 10 商业 API）覆盖 TTS/VC/NV；(2) 多语言数据集 (MD)：CommonVoice 真实语音 + 6 种多语言工具生成伪造语音，覆盖 46 种语言。

关键设计¶

生成方法分类：TTS（文本→语音）、VC（语音转换/克隆）、NV（神经声码器）三类，各有不同的伪造特征
质量过滤：VAD 去除 <0.5s 片段，人工抽检 ~1% 样本，标准化为 16kHz mono WAV
未见测试集 (BD-UT)：仅含商业 API 生成的伪造语音，测试对未见工业级生成方法的泛化

实验关键数据¶

主实验（EER% 越低越好）¶

训练数据	模型	BD 测试	ASV19	WaveFake	In-the-Wild
ASV19	AASIST	39.36%	5.06%	14.51%	20.41%
BD	AASIST	3.48%	6.45%	4.68%	12.28%
BD	W2V+AASIST	3.54%	1.92%	3.29%	7.22%

跨生成方法泛化¶

训练→测试	AASIST EER
TTS→TTS	0.44%
TTS→VC	16.85%
TTS→NV	25.66%
VC→VC	2.18%
全部→全部	14.26%

跨语言泛化（训练英+中，测试其他语言）¶

语言	AASIST (20ep)	W2V+AASIST (50ep)
English (seen)	0.81%	0.15%
Chinese (seen)	2.14%	0.50%
Spanish (unseen)	14.60% → 3.74%	0.12%
Hindi (unseen)	26.06%	0.98%
9语言平均	-	0.50%

关键发现¶

跨生成方法是最大挑战：TTS→VC 泛化 EER 达 16.85%，比跨语言更严重
多语言预训练至关重要：W2V XLSR 将跨语言 EER 从 14-26% 降至 <1%
训练数据多样性决定泛化能力：在 BD 上训练比 ASV19 泛化好 50-80%
商业 API 构成真实威胁：未见商业 API 测试仍有挑战

亮点与洞察¶

规模前所未有：300 万+ 样本、40 种工具、46 种语言——比 ASVspoof2021-DF (57万/英语) 大 5 倍且多样性远超。
含最新生成方法：覆盖 TTS/VC/Neural Vocoder 的最新方法，使检测模型不落后于攻击技术。
多样化训练增强泛化：用更多语言和说话人训练的检测模型在未见测试集上泛化更好。

局限性 / 可改进方向¶

数据集标注为二分类（真/假），未区分不同伪造方法的细粒度类别。部分语言覆盖可能不均衡。

评分¶

新颖性: ⭐⭐⭐ 数据集贡献为主
实验充分度: ⭐⭐⭐⭐ 详细消融（方法/语言/说话人影响）
写作质量: ⭐⭐⭐⭐ 统计清晰
价值: ⭐⭐⭐⭐⭐ 为语音伪造检测提供规模最大最多样的资源