GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages¶

会议: ACL 2025
arXiv: 2406.11546
代码: 无（数据集公开）
领域: 语音识别 / 低资源语言
关键词: 自动语音识别, 低资源语言, 大规模语料库, Noisy Student Training, 伪标签精炼

一句话总结¶

GigaSpeech 2 构建了一个约 30,000 小时的大规模低资源语言（泰语、印尼语、越南语）ASR 语料库，通过自动化爬取-转录-精炼管线从无标注 YouTube 视频生成高质量伪标签，训练的模型仅用 10% 参数量即可将 WER 比 Whisper large-v3 降低 25%-40%。

研究背景与动机¶

领域现状：ASR 领域受益于大规模标注数据，但高质量标注数据集集中在英文等高资源语言。Whisper 使用 68 万小时网络数据训练但数据未公开，MMS/Google USM 也使用大量内部数据。
现有痛点：
低资源语言（如泰语、印尼语、越南语）的公开标注数据极少（Common Voice 中泰语仅 172 小时、越南语仅 6 小时）
传统语料库构建依赖人工标注，成本高、速度慢
YODAS 尝试从 YouTube 爬取，但 YouTube 字幕质量无法保证
现有评测集（Common Voice, FLEURS）仅含朗读语音，与真实场景不匹配
核心矛盾：低资源语言缺乏标注数据 → 模型性能差 → 但人工标注扩展性极差。需要一种不依赖配对数据的自动化语料库构建方法。
本文要解决什么？ 建立一个完全自动化的、不依赖人工标注的大规模低资源 ASR 语料库构建管线。
切入角度：只关注音频内容，不要求有配对文本。用 Whisper 初始转录 + MMS 强制对齐 + 多维过滤 + 改进版 NST 迭代精炼伪标签。
核心 idea 一句话：用自动化管线从 YouTube 无标注音频构建大规模 ASR 语料库，通过改进的 Noisy Student Training 迭代精炼伪标签。

方法详解¶

整体框架¶

管线流程：音频爬取（YouTube）→ 语言检测 → Whisper 自动转录 → MMS 强制对齐 → 文本归一化 → 多维过滤 → 构成 GigaSpeech 2 raw（~30K 小时）→ 改进 NST 迭代精炼 → GigaSpeech 2 refined（~22K 小时）。

关键设计¶

自动化数据爬取与划分:
做什么：从 YouTube 系统性爬取低资源语言音频
核心思路：手动定义 19 个话题类别 + 8 种内容格式 → 选择频道 → yt-dlp 下载 → 按频道划分 TRAIN/DEV/TEST（确保无说话人重叠）→ DEV/TEST 各 10 小时人工转录
设计动机：优先选择主流频道保证音质和伦理，不同话题频道减少说话人重叠
多维过滤:
做什么：从文本和音频两个维度过滤低质量样本
核心思路：字符集过滤（仅保留目标语言字符）+ 语言置信度过滤（fastText LID 模型）+ 音频时长过滤 + 重复平衡
设计动机：Whisper 转录的伪标签存在大量错误，需要多维度过滤确保基本质量
改进版 Noisy Student Training (NST):
做什么：迭代精炼 Whisper 生成的伪标签
核心思路：将数据分为 n 个子集 → 第 1 轮在第 1 个子集训练 teacher → 对后续子集用 CER 过滤 → 扩大数据训练 student（≥teacher 大小）→ student 变新 teacher → 重要改进：每轮对所有历史数据重新标注和过滤，而非只新增数据
设计动机：传统 NST 依赖高质量监督数据作为种子，本方法完全不需要人工标注数据，将 Whisper 的有瑕疵伪标签当做起点迭代精炼
噪声策略:
做什么：在 NST 训练中引入噪声提升泛化
核心思路：输入噪声（SpecAugment）+ 模型噪声（Bypass 随机深度 + Feature Mask）
设计动机：让 student 在噪声条件下学习与 teacher 一致，teacher 生成伪标签时不加噪声

训练策略¶

模型架构：Zipformer Transducer（M 和 L 两种配置）。NST 迭代 3-4 轮，每轮扩大数据量 + 用更大模型 + 重新标注所有数据。

实验关键数据¶

主实验¶

泰语 ASR 性能（CER↓）:

模型	参数	GigaSpeech2 TEST	Common Voice	FLEURS
Whisper large-v3	1550M	16.42	10.96	17.69
Google API	-	16.51	4.96	12.73
GigaSpeech2 (NST-4)	152M	12.46	4.15	10.54

印尼语 ASR 性能（WER↓）:

模型	参数	GigaSpeech2 TEST	Common Voice	FLEURS
Whisper large-v3	1550M	19.42	17.87	15.28
GigaSpeech2 (NST-3)	152M	14.92	13.83	13.77

消融实验¶

NST 迭代效果（泰语）:

迭代	训练数据	GigaSpeech2 TEST CER	Common Voice CER	相对降幅
NST-1	4378h	15.10	8.88	baseline
NST-2	3497h	13.15	6.99	-13%/-21%
NST-3	7219h	12.46	4.61	-5%/-34%
NST-4	10262h	12.46	4.15	0%/-10%

关键发现¶

GigaSpeech2 模型仅用约 10% 参数量（152M vs 1550M）就比 Whisper large-v3 在真实 YouTube 测试集上降低 WER 25%-40%
NST 迭代最大的提升在前 2-3 轮，第 4 轮收益递减
每轮 NST 对所有历史数据重新标注和过滤是关键——不仅扩大数据量，还持续提升已有数据质量
在 Common Voice（朗读语音）上提升更显著（CER 从 8.88 降至 4.15），说明精炼后的数据泛化性好
GigaSpeech2 训练的模型超过 Google/Azure 商业 ASR 服务的性能

亮点与洞察¶

完全不依赖人工标注的 ASR 语料库构建：将 Whisper 伪标签作为起点，通过 NST 迭代自举提升质量。这个范式可迁移到任何低资源语言。
改进 NST 的"全量重标注"策略：每轮不仅处理新数据，还回过头重新标注所有历史数据，形成数据质量的持续提升循环。简单但有效。
真实场景测试集：相比 Common Voice/FLEURS 的朗读语音，GigaSpeech 2 TEST 更接近真实场景（YouTube 自然语音），填补了低资源语言评测的空白。

局限性 / 可改进方向¶

仅覆盖 3 种东南亚语言，扩展到更多低资源语言的适用性需验证
YouTube 数据的版权和隐私问题未充分讨论
Whisper 作为初始转录工具，对极低资源语言（Whisper 本身性能差的语言）可能不适用
NST 迭代需要多轮训练大模型，计算开销可观

评分¶

新颖性: ⭐⭐⭐⭐ 自动化管线和改进 NST 是有意义的工程创新，但核心技术不算全新
实验充分度: ⭐⭐⭐⭐⭐ 3 种语言、多个测试集、NST 迭代分析、与商业服务对比，非常全面
写作质量: ⭐⭐⭐⭐ 管线描述清晰，但某些细节（过滤阈值选择）不够详细
价值: ⭐⭐⭐⭐⭐ 开源的大规模低资源 ASR 语料库对社区贡献巨大