跳转至

UniCodec: Unified Audio Codec with Single Domain-Adaptive Codebook

会议: ACL 2025
arXiv: 2502.20067
代码: GitHub
领域: Audio & Speech
关键词: 音频编解码, 单码本, 域自适应, 混合专家, 语义学习

一句话总结

UniCodec 提出了一种使用单个域自适应码本的统一音频编解码器,通过分区域码本和域混合专家(MoE)策略,在语音、音乐和声音三个域上均实现卓越的重建和语义表示性能。

研究背景与动机

神经音频编解码器(NAC)是音频语言模型的基石,负责将连续波形映射为离散token。当前技术面临以下挑战:

  1. 多层RVQ的复杂性:主流方法如Encodec和DAC使用多层残差向量量化器(RVQ),生成多个并行的层次化token流,增加了下游语言模型解码的复杂性和延迟。
  2. 单码本统一建模困难:最新趋势转向单层量化器(如WavTokenizer、BigCodec),但使用单个码本同时处理语音、音乐、声音三个域时,由于域间分布差异巨大,性能会显著下降。WavTokenizer的统一版本在音乐和音频域上大幅落后于其域特定版本。
  3. 语义表示不足:离散token通常缺乏高层语义信息,现有方法依赖额外的预训练语义编码器(如HuBERT)进行蒸馏,增加了训练复杂度且难以支持多域统一建模。
  4. 重建与语义的固有矛盾:语义特征侧重高层抽象,重建特征侧重细粒度细节,两者需要在单码本中同时优化。

方法详解

整体框架

UniCodec 基于 WavTokenizer 架构,采用编码器-量化器-解码器的VQ-VAE结构。编码器由卷积块+Transformer层组成,量化器使用单个域自适应码本,解码器重建音频信号。训练分两阶段:声学训练阶段(重建损失+对抗损失)和语义训练阶段(增加对比学习损失)。

关键设计

  1. 分区域自适应码本(Partitioned Domain-Adaptive Codebook):将16384个码本条目划分为三个专属区域——语音域(索引0-4095)、音乐域(4096-8191)、声音域(8192-16383)。声音域分配更多条目,因为通用声音的分布范围更广。训练时仅更新对应域的码本条目,推理时不提供域ID,让量化器自主学习域特征并从整个码本中选择最近token。

  2. 域混合专家编码器(Domain MoE):受 DeepSeekMoE 启发,在Transformer编码器的FFN层引入MoE结构。设置1个共享专家(Ns=1)和3个路由专家(Nr=3),每次激活1个路由专家(Kr=1)。共享专家捕获跨域通用模式,路由专家通过sigmoid门控机制自动学习域特定特征,在效率和性能间取得平衡。

  3. 自监督掩码预测语义训练(Semantic Training Stage):受 Wav2Vec 2.0 启发,在编码器卷积输出后随机掩码一定比例的时间步(p=0.1, 连续M=5步),要求模型通过对比学习从K+1个候选中识别真正的卷积潜在表示。此方法无需任何额外模块即可丰富语义信息。先完成声学训练获得基础重建能力,再引入更困难的掩码预测目标。

损失函数 / 训练策略

  • 声学阶段:时域+频域重建损失(L1 Mel距离 + 多尺度STFT距离),多分辨率判别器的对抗损失,与WavTokenizer相同。
  • 语义阶段:在声学损失基础上增加对比损失 Lm,使用余弦相似度计算量化输出与未掩码卷积表示之间的匹配。
  • 精调阶段:在大规模数据训练后,使用高质量数据进一步精调以提升重建质量(大规模含噪数据训练会显著损害重建能力)。
  • 训练规模:约80000小时数据,32张A800 80G GPU,AdamW优化器(lr=2e-4),以SimVQ替代传统VQ提升码本利用率。

实验关键数据

主实验

客观重建评估(Mel距离↓,越低越好):

模型 统一 TPS↓ 语音 Mel↓ 音乐 Mel↓ 音频 Mel↓
DAC (多层) 600 0.3697 0.3578 0.4581
Encodec (多层) 600 0.5367 0.5565 0.7601
WavTokenizer (语音) 75 0.5001 0.6586 0.5990
WavTokenizer (统一) 75 0.5308 0.5435 0.5193
UniCodec 75 0.3442 0.3959 0.3820

语音域详细指标(单码本模型对比):

模型 PESQ↑ STOI↑ F1↑ UTMOS↑
BigCodec 2.687 0.929 0.948 4.037
WavTokenizer (统一) 1.838 0.872 0.918 3.612
UniCodec 3.027 0.949 0.949 3.987

主观MUSHRA测试:

模型 语音↑ 音乐↑ 音频↑
Ground Truth 93.52 96.18 95.28
WavTokenizer (统一) 80.40 56.10 62.21
UniCodec 90.74 77.77 82.43

消融实验

配置 语音 Mel↓ 音乐 Mel↓ 音频 Mel↓ 说明
UniCodec (完整) 0.3442 0.3959 0.3820 最优
带域ID推理 0.3474 0.3912 0.3824 几乎无差,证明码本自主学习有效
去掉精调阶段 0.4476 0.4490 0.4366 高质量数据精调至关重要
去掉MoE 0.4883 0.4592 0.4548 MoE对多域建模重要
去掉分区码本 0.4873 0.5064 0.5135 分区码本贡献最大,尤其在音频域

关键发现

  1. UniCodec 作为统一单码本模型,超越了域特定的单码本模型:在语音域超越WavTokenizer(speech),在音乐/音频域超越WavTokenizer(music/audio),这在之前被认为是极其困难的。
  2. 甚至超越多层RVQ模型:UniCodec(75 TPS)在三个域上均优于Encodec(600 TPS)和Mimi(100 TPS),在仅使用1/8 token率的情况下实现更好的重建。
  3. 语义训练在保持重建质量的同时增强语义:去掉语义阶段后,ARCH基准上的分类准确率下降(如RAVDESS 40.28%→36.81%),但重建指标几乎不受影响。
  4. 分区码本无需推理时提供域ID:消融证明码本可以自主学习域特征,音乐域微小的差异源于歌曲中语音和音乐元素的混合特性。

亮点与洞察

  • 优雅的设计理念:无需额外的SSL编码器、扩散模型或辅助模块,仅通过码本划分、MoE和自监督掩码预测三种策略,在单码本框架内解决多域统一+语义增强两大挑战。
  • 分区码本的假设验证:训练时使用域ID但推理时不使用,验证了码本能自主学习域分离,这是一个有趣的发现。
  • 大规模数据+高质量精调的两阶段范式:发现大规模含噪数据虽然帮助泛化但损害重建,通过高质量精调弥补,这一观察对其他音频模型也有参考价值。
  • 压缩率与性能的突破:在75 TPS(极低码率)下实现了优于600 TPS多层模型的性能。

局限与展望

  1. 噪声环境鲁棒性不足:对含噪和重叠语音的建模仍有性能退化。
  2. 流式场景性能下降:已评估流式使用但观察到性能退化,需要未来改进。
  3. 语义密度的天花板:在统一单码本中平衡声学和语义密度仍是挑战,是值得深入的方向。
  4. 未与LLM集成验证:尚未探索基于UniCodec的音频语言模型在下游任务上的表现。
  5. 域划分的数量固定:当前固定为语音/音乐/声音三域,未探索更细粒度或更灵活的域划分。

相关工作与启发

  • WavTokenizer是直接基础,UniCodec在其上增加了分区码本、MoE和语义训练。
  • DeepSeekMoE的细粒度专家+共享专家设计被成功迁移到音频编码器领域。
  • Wav2Vec 2.0的掩码预测范式被创新性地应用于编解码器的语义增强,且无需额外模块。
  • Mimi Codec(Moshi项目)的Transformer编码器设计也被采纳,但UniCodec在更低码率下实现了更好性能。
  • 本文表明统一多域音频编解码的单码本方案已经成熟,为构建通用音频语言模型奠定基础。

评分

维度 分数 (1-5)
创新性 4
理论深度 3
实验充分性 5
工程价值 5
写作质量 4
总分 4.2

相关论文