Long-Form Speech Generation with Spoken Language Models¶

会议: ICML 2025
arXiv: 2412.18603
代码: https://google.github.io/tacotron/publications/speechssm/
领域: 文本生成 / 语音生成
关键词: 语音语言模型, 长程语音生成, 状态空间模型, SSM, 语音评估

一句话总结¶

提出 SpeechSSM，首个能在单次解码会话中学习和生成长达 16 分钟语音的 textless 语音语言模型，利用 Griffin 混合 SSM 架构实现常量内存解码和无限上下文，并引入 LibriSpeech-Long 评估基准和新的嵌入/LLM 评判指标。

研究背景与动机¶

领域现状：现有语音语言模型（如 GSLM、TWIST、Spirit LM）最多只能生成几十秒的语音，受限于 Transformer 的二次复杂度和语音 token 的高时间分辨率（25Hz，约 10 个语音 token 对应 1-2 个文本 token）。

现有痛点：(a) Transformer 推理内存线性增长，无法无限延续；(b) 语音 token 序列极长导致语义一致性丧失；(c) 现有评估指标在长程设置下噪声大且不够判别。

核心矛盾：真实应用（语音助手对话、播客、有声书）需要分钟级连贯语音，但模型只能可靠生成秒级语音。

本文目标 (a) 建模层面：常量内存、无限上下文的长程语音生成；(b) 评估层面：长程语音生成的评估方法和基准。

切入角度：用混合 SSM（状态空间模型 + 局部注意力）替代纯 Transformer，利用 SSM 的固定状态压缩无限距离的上下文。

核心 idea：Griffin 混合 SSM + 高质量语义 token (USM-v2) + 窗口化策略 = 可无限生成的语音 LM。

方法详解¶

整体框架¶

SpeechSSM 分两阶段：(1) 语义阶段：用 Griffin 混合 SSM 自回归预测 USM-v2 语义 token（25Hz，32k 词表）；(2) 声学阶段：用 SoundStorm 非自回归地将语义 token 转换为 SoundStream 声学 token，再解码为波形。说话人特征通过 3 秒语音提示在声学阶段注入。

关键设计¶

Griffin 混合 SSM 架构:
- 功能：作为语义 token 的自回归解码器
- 核心思路：交替排列 gated LRU（线性循环单元）和局部滑窗多查询注意力（2:1 比例），局部注意力捕捞近期上下文，LRU 状态传递跨任意距离的信息
- 设计动机：满足常量内存解码 + 无限上下文 + 生成长度外推三个要求
窗口化 Tokenization 和解码:
- 功能：让非 SSM 组件（语义 tokenizer、声学解码器）也能处理长程语音
- 核心思路：将长音频切分为固定长度窗口（30s）并有 4s 重叠，独立 tokenize/decode 后在重叠边界处拼接
- 设计动机：USM-v2 tokenizer 和 SoundStorm 都有上下文限制，窗口化是工程上的必要设计
避免隐式 EOS:
- 功能：解决早期模型无法生成超过训练时长的问题
- 核心思路：非因果 tokenizer（如 USM-v2）会在最后一个窗口的 token 中隐式编码"剩余长度"信息。解决方案：用音频开头的语音（而非静音）填充最后一个窗口
- 设计动机：让 token 看起来像"后面还有语音"，从而支持外推
文本 LM 初始化:
- 功能：从 RecurrentGemma-2B/9B 初始化 SpeechSSM
- 核心思路：保留预训练的架构权重，丢弃文本 token embedding，重新初始化音频 token embedding
- 设计动机：TWIST 等工作表明文本 LM 初始化能提升语义一致性

训练策略¶

在 LibriLight unlab-60k 上训练，默认使用 4 分钟（240s）音频段
16 TPUs (v5p)，100k 步，768k tokens/batch
采样温度 1，通过 checkpoint 选择（LibriSpeech-Long dev-clean 的 transcript PPL）

实验关键数据¶

主实验（短程 7s 续写）¶

模型	PPL ↓	SBERT ↑	SpkrSim ↑	N-MOS ↑
TWIST-7B	6.54	0.20	0.41	3.24
Spirit LM 7B	6.17	0.19	0.45	3.00
SpeechSSM-2B	5.76	0.23	0.79	3.87
SpeechSSM-9B	5.60	0.23	0.79	3.94
Ground Truth	5.63	1.00	0.84	4.02

长程评估（4 分钟续写）¶

模型	PPL ↓	SpkrSim ↑	说明
Spirit LM ⊞	较高	0.45	滑窗扩展，语义退化
SpeechSSM-2B	最低	0.79	保持语义一致性

关键发现¶

SpeechSSM 的 SpkrSim 远高于其他模型（0.79 vs 0.41-0.45），归因于 USM-v2 的大词表(32k)和声学阶段的说话人提示
9B 模型在短程和长程上均优于 2B，说明 SSM 同样受益于 scaling
现有 sWUGGY 指标在大词表下失效，与生成质量不正相关

亮点与洞察¶

首个长程语音 LM：从 10s 量级直接跳到 16min，是质的飞跃
LibriSpeech-Long 基准：填补了长程语音评估的空白，开源且有标准化分割
LLM-as-Judge 评估：用 LLM 做对比评估（side-by-side）解决了 ASR 指标噪声大的问题

局限与展望¶

仅支持朗读和自由发挥两种风格，未支持对话式语音
语义 tokenizer USM-v2 非开源，限制了可复现性
未与 Moshi 等支持对话的系统做直接对比
窗口化拼接可能在边界处产生不自然的过渡

评分¶

新颖性: ⭐⭐⭐⭐ SSM 在语音 LM 中的首次系统应用
实验充分度: ⭐⭐⭐⭐⭐ 短程/长程/新指标/新基准全面
写作质量: ⭐⭐⭐⭐⭐ 工程细节丰富，问题分析透彻
价值: ⭐⭐⭐⭐⭐ 对语音生成领域有开创性贡献