UniCodec: Unified Audio Codec with Single Domain-Adaptive Codebook¶

会议: ACL 2025
arXiv: 2502.20067
代码: GitHub
领域: Audio & Speech
关键词: 音频编解码, 单码本, 域自适应, 混合专家, 语义学习

一句话总结¶

UniCodec 提出了一种使用单个域自适应码本的统一音频编解码器，通过分区域码本和域混合专家（MoE）策略，在语音、音乐和声音三个域上均实现卓越的重建和语义表示性能。

神经音频编解码器（NAC）是音频语言模型的基石，负责将连续波形映射为离散token。当前技术面临以下挑战：

多层RVQ的复杂性：主流方法如Encodec和DAC使用多层残差向量量化器（RVQ），生成多个并行的层次化token流，增加了下游语言模型解码的复杂性和延迟。
单码本统一建模困难：最新趋势转向单层量化器（如WavTokenizer、BigCodec），但使用单个码本同时处理语音、音乐、声音三个域时，由于域间分布差异巨大，性能会显著下降。WavTokenizer的统一版本在音乐和音频域上大幅落后于其域特定版本。
语义表示不足：离散token通常缺乏高层语义信息，现有方法依赖额外的预训练语义编码器（如HuBERT）进行蒸馏，增加了训练复杂度且难以支持多域统一建模。
重建与语义的固有矛盾：语义特征侧重高层抽象，重建特征侧重细粒度细节，两者需要在单码本中同时优化。

UniCodec 基于 WavTokenizer 架构，采用编码器-量化器-解码器的VQ-VAE结构。编码器由卷积块+Transformer层组成，量化器使用单个域自适应码本，解码器重建音频信号。训练分两阶段：声学训练阶段（重建损失+对抗损失）和语义训练阶段（增加对比学习损失）。

分区域自适应码本（Partitioned Domain-Adaptive Codebook）：将16384个码本条目划分为三个专属区域——语音域（索引0-4095）、音乐域（4096-8191）、声音域（8192-16383）。声音域分配更多条目，因为通用声音的分布范围更广。训练时仅更新对应域的码本条目，推理时不提供域ID，让量化器自主学习域特征并从整个码本中选择最近token。
域混合专家编码器（Domain MoE）：受 DeepSeekMoE 启发，在Transformer编码器的FFN层引入MoE结构。设置1个共享专家（Ns=1）和3个路由专家（Nr=3），每次激活1个路由专家（Kr=1）。共享专家捕获跨域通用模式，路由专家通过sigmoid门控机制自动学习域特定特征，在效率和性能间取得平衡。
自监督掩码预测语义训练（Semantic Training Stage）：受 Wav2Vec 2.0 启发，在编码器卷积输出后随机掩码一定比例的时间步（p=0.1, 连续M=5步），要求模型通过对比学习从K+1个候选中识别真正的卷积潜在表示。此方法无需任何额外模块即可丰富语义信息。先完成声学训练获得基础重建能力，再引入更困难的掩码预测目标。

客观重建评估（Mel距离↓，越低越好）：

模型	统一	TPS↓	语音 Mel↓	音乐 Mel↓	音频 Mel↓
DAC (多层)	✓	600	0.3697	0.3578	0.4581
Encodec (多层)	✓	600	0.5367	0.5565	0.7601
WavTokenizer (语音)	✗	75	0.5001	0.6586	0.5990
WavTokenizer (统一)	✓	75	0.5308	0.5435	0.5193
UniCodec	✓	75	0.3442	0.3959	0.3820

语音域详细指标（单码本模型对比）：

模型	PESQ↑	STOI↑	F1↑	UTMOS↑
BigCodec	2.687	0.929	0.948	4.037
WavTokenizer (统一)	1.838	0.872	0.918	3.612
UniCodec	3.027	0.949	0.949	3.987

主观MUSHRA测试：

配置	语音 Mel↓	音乐 Mel↓	音频 Mel↓	说明
UniCodec (完整)	0.3442	0.3959	0.3820	最优
带域ID推理	0.3474	0.3912	0.3824	几乎无差，证明码本自主学习有效
去掉精调阶段	0.4476	0.4490	0.4366	高质量数据精调至关重要
去掉MoE	0.4883	0.4592	0.4548	MoE对多域建模重要
去掉分区码本	0.4873	0.5064	0.5135	分区码本贡献最大，尤其在音频域

UniCodec 作为统一单码本模型，超越了域特定的单码本模型：在语音域超越WavTokenizer(speech)，在音乐/音频域超越WavTokenizer(music/audio)，这在之前被认为是极其困难的。
甚至超越多层RVQ模型：UniCodec（75 TPS）在三个域上均优于Encodec（600 TPS）和Mimi（100 TPS），在仅使用1/8 token率的情况下实现更好的重建。
语义训练在保持重建质量的同时增强语义：去掉语义阶段后，ARCH基准上的分类准确率下降（如RAVDESS 40.28%→36.81%），但重建指标几乎不受影响。
分区码本无需推理时提供域ID：消融证明码本可以自主学习域特征，音乐域微小的差异源于歌曲中语音和音乐元素的混合特性。

优雅的设计理念：无需额外的SSL编码器、扩散模型或辅助模块，仅通过码本划分、MoE和自监督掩码预测三种策略，在单码本框架内解决多域统一+语义增强两大挑战。
分区码本的假设验证：训练时使用域ID但推理时不使用，验证了码本能自主学习域分离，这是一个有趣的发现。
大规模数据+高质量精调的两阶段范式：发现大规模含噪数据虽然帮助泛化但损害重建，通过高质量精调弥补，这一观察对其他音频模型也有参考价值。
压缩率与性能的突破：在75 TPS（极低码率）下实现了优于600 TPS多层模型的性能。