跳转至

Language-Codec: Bridging Discrete Codec Representations and Speech Language Models

会议: ACL 2025
arXiv: 2402.12208
领域: 语音生成 / 离散音频编码
关键词: 离散音频编解码器, 残差向量量化, 语音语言模型, 掩码通道机制, 傅里叶变换解码器

一句话总结

提出 Language-Codec,通过掩码通道残差向量量化(MCRVQ)机制和改进的傅里叶变换解码器,弥合离散编解码器表示与下游语音语言模型之间的鸿沟,仅用4个码本通道即实现高质量音频重建。

研究背景与动机

大型语言模型在语音合成、音乐生成、音频生成等领域取得了显著进展,这些模型的核心组件是离散声学编解码器(如 Encodec、SoundStream),用于将连续音频信号转换为离散 token 序列。然而,现有编解码器与下游语音语言模型之间存在两个关键问题:

  1. 首层码本信息过载:由于编解码器的重建范式和残差向量量化(RVQ)的结构特性,第一层码本包含了过多的音频信息。当下游任务需要从文本等弱监督信号直接生成声学 token 时,首层码本信息的高度密集会导致生成困难。
  2. 码本数量过多:为了生成高质量音频,通常需要大量码本层,这显著增加了下游语音语言模型的建模负担,导致 token 序列过长或码本空间呈指数增长。

作者认为,在下游语音语言模型中,第一层量化器实际上充当了文本输入与后续量化器之间的中间桥梁模块,因此有必要从语音语言模型的视角重新设计编解码器。

方法详解

整体框架

Language-Codec 沿用编码器-量化器-解码器的三段式架构,但在每个模块上进行了针对性改进:

  • 编码器:沿用 Encodec 的结构,包含 1D 卷积、4个下采样卷积块(步幅为 2,4,5,8)、双层 LSTM 和最终卷积层,在 24kHz 采样率下每秒输出 75 个潜在步。
  • 量化器:提出全新的掩码通道残差向量量化(MCRVQ)模块。
  • 解码器:采用 Vocos 风格的傅里叶变换解码器,替代传统的转置卷积上采样结构,并引入注意力模块增强序列建模能力。

关键设计

1. 掩码通道残差向量量化(MCRVQ)

MCRVQ 的核心思想是将前 \(N_q\)(实验中设为3)层量化器改为并行结构,每个量化器仅处理潜在空间信息 \(Z\)\(\frac{1}{N_q}\) 部分。具体做法是将压缩音频帧等分为 \(N_q\) 份,对每个量化器掩码掉指定部分,仅保留 \(\frac{1}{N_q}\) 的信息输入。第 \(N_q+1\) 层及之后的量化器则回归串行 RVQ 模式,处理前序所有量化器的残差。

这种设计使得: - 首层码本不再承载过量信息,降低了从文本等弱信号生成首层 token 的难度 - 信息被更均匀地分散到各通道,仅需 4 个码本通道即可实现高质量重建

2. 傅里叶变换解码器

解码器不使用传统的转置卷积上采样(易产生混叠伪影),而是保持所有深度特征分辨率一致,通过逆傅里叶变换实现波形重建。核心流程为: - 量化后的中间信号 \(Z_q\) 经过 Conv1D、注意力模块和 ConvNeXt 块处理 - 输出被拆分为幅度分量和相位分量 - 通过 \(STFT = \exp(q) \cdot (\cos p + j\sin p)\) 重建复数频谱 - 最终通过逆傅里叶变换得到音频波形

3. 多尺度判别器

训练中采用四种判别器的组合:多周期判别器(MPD)、多分辨率判别器(MRD)、多尺度判别器(MSD)和复数 STFT 判别器,使用 hinge loss 作为对抗损失。

实验关键数据

主实验

在 LibriTTS Test-Clean 数据集上(3.0kbps / 4个码本):

模型 UTMOS ↑ PESQ ↑ STOI ↑ V/UV F1 ↑ SPK ↑
Encodec 2.3070 2.0517 0.9007 0.9198 0.7860
Vocos 3.5390 2.4026 0.9231 0.9358 0.7892
SpeechTokenizer 3.5632 1.9311 0.8778 0.9273 0.6587
DAC 2.9902 2.4091 0.9118 0.9531 0.8129
Language-Codec 较优 较优 较优 较优 较优

Language-Codec 在仅使用 4 个码本通道的情况下,各指标全面超越竞争方法。

关键发现

  • 在相同比特率(3.0kbps)下,Language-Codec 用 4 个码本通道达到了其他方法 8 个码本通道的重建质量
  • MCRVQ 机制有效将信息均匀分散到各码本层,首层信息量显著降低
  • 在下游零样本 TTS 任务中也验证了其有效性,表明改进的编解码表示确实有利于语音语言模型的建模

亮点与洞察

  1. 视角独特:首次从下游语音语言模型的需求出发设计编解码器,而非单纯追求重建质量
  2. MCRVQ 设计精巧:通过并行掩码机制让信息均匀分布到各码本通道,同时保持端到端可训练
  3. 解码器现代化:采用傅里叶变换替代转置卷积上采样,在避免混叠伪影的同时实现高质量重建
  4. 实用价值高:4 个码本通道意味着下游语言模型的建模复杂度大幅降低

局限性

  • 论文主要在语音数据上验证,对音乐和通用音频的泛化能力未充分探讨
  • MCRVQ 中 \(N_q=3\) 的设定缺乏充分的消融分析,不同取值的影响不明
  • 训练数据规模达 5 万小时,较小规模数据下的效果有待验证
  • 与最新的 SemantiCodec 等方法的公平对比有限(推理速度差异大)

相关工作

  • SoundStream / Encodec:基于 RVQ 的经典编解码器,是本文的重要基线
  • Vocos:基于傅里叶变换的神经声码器,本文解码器借鉴其结构
  • DAC:引入因子化编码和量化器 dropout,是最先进的编解码器之一
  • SpeechTokenizer:在首层通道引入语义 token 的概念
  • VALL-E:基于离散编解码 token 的零样本 TTS 系统,是主要的下游验证场景

评分

  • 创新性: ⭐⭐⭐⭐ — MCRVQ 机制新颖,从下游模型视角设计编解码器的思路值得关注
  • 实用性: ⭐⭐⭐⭐⭐ — 减少码本数量对下游语音生成任务有直接实际价值
  • 实验充分度: ⭐⭐⭐⭐ — 多数据集、多指标评估较全面,但消融可更深入
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,技术细节充分