An Exploration of Mamba for Speech Self-Supervised Models¶

会议: ACL 2026
arXiv: 2506.12606
代码: GitHub
领域: Speech / Self-Supervised Learning
关键词: Mamba, 语音自监督学习, HuBERT, 状态空间模型, 流式ASR

一句话总结¶

首次全面探索Mamba架构作为语音自监督学习（SSL）基础模型的潜力，发现Mamba-based HuBERT在长上下文ASR、流式ASR和因果设置的probing任务中优于Transformer，同时保持线性时间复杂度。

领域现状：Transformer-based语音SSL模型（如HuBERT, wav2vec 2.0）取得了巨大成功，但其二次方复杂度在长序列处理时造成高计算成本和内存瓶颈。

现有痛点：(1) Mamba在语言建模中已展现出超越Transformer的能力，但在语音领域的应用仅限于单一任务的孤立研究；(2) 现有语音Mamba工作通常报告与Transformer相当甚至略差的性能，且常需要混合设计；(3) 缺乏统一的跨任务评估。

核心矛盾：Mamba的线性时间复杂度理论上非常适合语音的长序列特性，但其在语音SSL中的综合表现尚不明确。

本文目标：系统训练和评估Mamba-based HuBERT模型，全面探索其作为语音基础模型和特征提取器的潜力。

切入角度：用Mamba block替换HuBERT中的Transformer block，保持相同的训练流程（两轮迭代k-means伪标签训练），在ASR、SUPERB等多任务上评估。

核心 idea：Mamba天然的因果架构使其特别适合构建因果语音SSL模型，在流式ASR和长上下文场景中展现独特优势。

用Mamba block替换HuBERT的Transformer block，保留CNN特征编码器和位置编码器。训练流程遵循HuBERT的两轮迭代：第一轮以MFCC为目标训练250k步，第二轮用第一轮第6层输出作为目标训练400k步。在LibriSpeech 960h上预训练。

多种Mamba变体的系统对比:
- 功能：全面评估不同Mamba配置的语音表示能力
- 核心思路：测试因果设置（Mamba, Mamba+MLP）和双向设置（ExtBiMamba, InnBiMamba），并与对应的Transformer变体公平对比
- 设计动机：Mamba的因果性质可能在某些任务中是优势（流式ASR），在另一些中可能是劣势（需要全局信息的任务）
长上下文和流式ASR评估:
- 功能：验证Mamba的线性复杂度在实际场景中的价值
- 核心思路：在不做句子分割的情况下处理整段语音进行长上下文ASR；在仅使用过去信息的约束下进行流式ASR。量化MACs/秒和RTF随序列长度的变化
- 设计动机：这是Mamba相对Transformer最大的理论优势所在——Transformer在80秒以上即OOM，Mamba可处理5分钟以上
表示质量分析:
- 功能：深入理解Mamba学到的语音表示的特性
- 核心思路：使用phone purity评估量化表示的语音质量，CCA分析音素和说话人特征的编码方式
- 设计动机：不仅要知道"好不好"，还要理解"为什么好"以及"好在哪里"

遵循HuBERT标准训练：masked prediction loss。使用Adam优化器，线性warm-up（前8%）后线性decay。因计算资源限制，在单块V100上训练，batch size为原始的1/4。