GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages¶
会议: ACL 2025
arXiv: 2406.11546
代码: 无(数据集公开)
领域: 语音识别 / 低资源语言
关键词: 自动语音识别, 低资源语言, 大规模语料库, Noisy Student Training, 伪标签精炼
一句话总结¶
GigaSpeech 2 构建了一个约 30,000 小时的大规模低资源语言(泰语、印尼语、越南语)ASR 语料库,通过自动化爬取-转录-精炼管线从无标注 YouTube 视频生成高质量伪标签,训练的模型仅用 10% 参数量即可将 WER 比 Whisper large-v3 降低 25%-40%。
研究背景与动机¶
- 领域现状:ASR 领域受益于大规模标注数据,但高质量标注数据集集中在英文等高资源语言。Whisper 使用 68 万小时网络数据训练但数据未公开,MMS/Google USM 也使用大量内部数据。
- 现有痛点:
- 低资源语言(如泰语、印尼语、越南语)的公开标注数据极少(Common Voice 中泰语仅 172 小时、越南语仅 6 小时)
- 传统语料库构建依赖人工标注,成本高、速度慢
- YODAS 尝试从 YouTube 爬取,但 YouTube 字幕质量无法保证
- 现有评测集(Common Voice, FLEURS)仅含朗读语音,与真实场景不匹配
- 核心矛盾:低资源语言缺乏标注数据 → 模型性能差 → 但人工标注扩展性极差。需要一种不依赖配对数据的自动化语料库构建方法。
- 本文要解决什么? 建立一个完全自动化的、不依赖人工标注的大规模低资源 ASR 语料库构建管线。
- 切入角度:只关注音频内容,不要求有配对文本。用 Whisper 初始转录 + MMS 强制对齐 + 多维过滤 + 改进版 NST 迭代精炼伪标签。
- 核心 idea 一句话:用自动化管线从 YouTube 无标注音频构建大规模 ASR 语料库,通过改进的 Noisy Student Training 迭代精炼伪标签。
方法详解¶
整体框架¶
管线流程:音频爬取(YouTube)→ 语言检测 → Whisper 自动转录 → MMS 强制对齐 → 文本归一化 → 多维过滤 → 构成 GigaSpeech 2 raw(~30K 小时)→ 改进 NST 迭代精炼 → GigaSpeech 2 refined(~22K 小时)。
关键设计¶
- 自动化数据爬取与划分:
- 做什么:从 YouTube 系统性爬取低资源语言音频
- 核心思路:手动定义 19 个话题类别 + 8 种内容格式 → 选择频道 → yt-dlp 下载 → 按频道划分 TRAIN/DEV/TEST(确保无说话人重叠)→ DEV/TEST 各 10 小时人工转录
-
设计动机:优先选择主流频道保证音质和伦理,不同话题频道减少说话人重叠
-
多维过滤:
- 做什么:从文本和音频两个维度过滤低质量样本
- 核心思路:字符集过滤(仅保留目标语言字符)+ 语言置信度过滤(fastText LID 模型)+ 音频时长过滤 + 重复平衡
-
设计动机:Whisper 转录的伪标签存在大量错误,需要多维度过滤确保基本质量
-
改进版 Noisy Student Training (NST):
- 做什么:迭代精炼 Whisper 生成的伪标签
- 核心思路:将数据分为 n 个子集 → 第 1 轮在第 1 个子集训练 teacher → 对后续子集用 CER 过滤 → 扩大数据训练 student(≥teacher 大小)→ student 变新 teacher → 重要改进:每轮对所有历史数据重新标注和过滤,而非只新增数据
-
设计动机:传统 NST 依赖高质量监督数据作为种子,本方法完全不需要人工标注数据,将 Whisper 的有瑕疵伪标签当做起点迭代精炼
-
噪声策略:
- 做什么:在 NST 训练中引入噪声提升泛化
- 核心思路:输入噪声(SpecAugment)+ 模型噪声(Bypass 随机深度 + Feature Mask)
- 设计动机:让 student 在噪声条件下学习与 teacher 一致,teacher 生成伪标签时不加噪声
训练策略¶
模型架构:Zipformer Transducer(M 和 L 两种配置)。NST 迭代 3-4 轮,每轮扩大数据量 + 用更大模型 + 重新标注所有数据。
实验关键数据¶
主实验¶
泰语 ASR 性能(CER↓):
| 模型 | 参数 | GigaSpeech2 TEST | Common Voice | FLEURS |
|---|---|---|---|---|
| Whisper large-v3 | 1550M | 16.42 | 10.96 | 17.69 |
| Google API | - | 16.51 | 4.96 | 12.73 |
| GigaSpeech2 (NST-4) | 152M | 12.46 | 4.15 | 10.54 |
印尼语 ASR 性能(WER↓):
| 模型 | 参数 | GigaSpeech2 TEST | Common Voice | FLEURS |
|---|---|---|---|---|
| Whisper large-v3 | 1550M | 19.42 | 17.87 | 15.28 |
| GigaSpeech2 (NST-3) | 152M | 14.92 | 13.83 | 13.77 |
消融实验¶
NST 迭代效果(泰语):
| 迭代 | 训练数据 | GigaSpeech2 TEST CER | Common Voice CER | 相对降幅 |
|---|---|---|---|---|
| NST-1 | 4378h | 15.10 | 8.88 | baseline |
| NST-2 | 3497h | 13.15 | 6.99 | -13%/-21% |
| NST-3 | 7219h | 12.46 | 4.61 | -5%/-34% |
| NST-4 | 10262h | 12.46 | 4.15 | 0%/-10% |
关键发现¶
- GigaSpeech2 模型仅用约 10% 参数量(152M vs 1550M)就比 Whisper large-v3 在真实 YouTube 测试集上降低 WER 25%-40%
- NST 迭代最大的提升在前 2-3 轮,第 4 轮收益递减
- 每轮 NST 对所有历史数据重新标注和过滤是关键——不仅扩大数据量,还持续提升已有数据质量
- 在 Common Voice(朗读语音)上提升更显著(CER 从 8.88 降至 4.15),说明精炼后的数据泛化性好
- GigaSpeech2 训练的模型超过 Google/Azure 商业 ASR 服务的性能
亮点与洞察¶
- 完全不依赖人工标注的 ASR 语料库构建:将 Whisper 伪标签作为起点,通过 NST 迭代自举提升质量。这个范式可迁移到任何低资源语言。
- 改进 NST 的"全量重标注"策略:每轮不仅处理新数据,还回过头重新标注所有历史数据,形成数据质量的持续提升循环。简单但有效。
- 真实场景测试集:相比 Common Voice/FLEURS 的朗读语音,GigaSpeech 2 TEST 更接近真实场景(YouTube 自然语音),填补了低资源语言评测的空白。
局限性 / 可改进方向¶
- 仅覆盖 3 种东南亚语言,扩展到更多低资源语言的适用性需验证
- YouTube 数据的版权和隐私问题未充分讨论
- Whisper 作为初始转录工具,对极低资源语言(Whisper 本身性能差的语言)可能不适用
- NST 迭代需要多轮训练大模型,计算开销可观
相关工作与启发¶
- vs YODAS: YODAS 使用 YouTube 字幕(质量不可控),GigaSpeech2 完全依赖模型转录 + 迭代精炼,质量更高
- vs Whisper: GigaSpeech2 的训练模型用 10% 参数量超越 Whisper large-v3,说明高质量领域数据比模型大小更重要
- vs MMS/USM: 这些工业模型使用未公开的大量数据训练,GigaSpeech2 提供了可复现的开源替代方案
评分¶
- 新颖性: ⭐⭐⭐⭐ 自动化管线和改进 NST 是有意义的工程创新,但核心技术不算全新
- 实验充分度: ⭐⭐⭐⭐⭐ 3 种语言、多个测试集、NST 迭代分析、与商业服务对比,非常全面
- 写作质量: ⭐⭐⭐⭐ 管线描述清晰,但某些细节(过滤阈值选择)不够详细
- 价值: ⭐⭐⭐⭐⭐ 开源的大规模低资源 ASR 语料库对社区贡献巨大