Scaling Speech Tokenizers with Diffusion Autoencoders¶

会议: ICLR 2026
arXiv: 2602.06602
代码: 无（Demo: https://sitok-demo.github.io/）
领域: 语音 / Token化
关键词: Speech Tokenizer, Diffusion Autoencoder, Semantic Regularization, Low Bitrate, CTC Loss

一句话总结¶

提出 SiTok（Speech Diffusion Tokenizer），采用扩散自编码器联合训练编码器-量化器-解码器（非两阶段），加入 CTC 语义正则化确保离散 token 保留语言信息，规模化到 1.6B 参数和 2200 万小时语音数据，在极端低 token 率（12.5Hz / 200bps）下同时实现 3.34% WER（重建）和 4.95 WER（LLM ASR）的强性能。

研究背景与动机¶

领域现状：语音 tokenizer 是语音语言模型的基础接口，决定了语音如何被离散化表示。一个理想的语音 tokenizer 需要同时满足三个目标：（1）极端压缩以支持高效语言建模；（2）高保真重建以生成自然语音；（3）语义丰富表示以支持下游理解任务。

现有痛点：现有方法通过启发式妥协而非原则性方案来处理上述三目标的张力：（1）低比特率下重建质量差——很多方法用 RVQ（残差向量量化）增加码本层数或提高帧率来维持质量，但这直接膨胀了 token 数量（如 Mimi 75 TPS, DualCodec 75 TPS），违背压缩目标；（2）仅优化声学保真度忽略语义——导致 token 不适合理解任务（如 ASR WER 很高）；（3）两阶段训练方案——先用 SSL 模型量化语音表征，再独立训练扩散/声码器解码，量化器无法为重建优化，解码器被迫适配次优离散码。

核心矛盾：在传统声学重建目标下，简单增大模型或数据在低 token 率时收益递减——这是向量量化的结构性瓶颈。确定性重建损失迫使离散潜空间"坍缩不确定性"，优先保留低级信号细节而非语义结构，导致压缩越激进语义损失越大。

切入角度：低 token 率量化引入的不确定性需要生成式框架来建模——扩散模型恰好学习逆转随机退化过程，天然适合处理量化引起的信息损失。同时，直接用 CTC 损失监督量化后的潜空间，比 SSL 蒸馏更直接地注入语义信息。

核心 idea：用扩散自编码器（而非对抗式训练）联合优化量化和重建，加上 CTC 语义正则化，实现极低 token 率下语义和声学的双重保留。

方法详解¶

整体框架¶

SiTok 以 mel 频谱图为输入和重建目标（非原始波形），避免直接处理超长波形序列和不稳定的对抗训练。Pipeline 为：（1）下采样到 12.5Hz；（2）Llama-style 因果 Transformer 编码器（16 层）提取潜在特征 \(\mathbf{z}\)；（3）向量量化（65,536 entries，32 维，EMA 更新）得到离散 token \(\mathbf{q}\)；（4）非因果 Llama Transformer 扩散解码器（16 层）以量化嵌入 \(\mathbf{z}_q\) 为条件，用 flow-matching 目标重建 mel 谱图；（5）外部 Vocos 声码器将 mel 谱图转为 24kHz 波形。同时有辅助 CTC 解码器（4 层）在量化后潜空间上预测文本转录。

关键设计¶

扩散自编码器替代对抗式训练
- 功能：在量化后的离散 token 条件下高保真重建 mel 谱图
- 核心思路：解码器使用 flow-matching 目标，将噪声样本 \(\mathbf{x}_t = t\mathbf{x} + (1-t)\epsilon\) 的速度场 \(v_\phi(\mathbf{x}_t, t, \mathbf{z}_q)\) 训练为逼近真实速度 \((\mathbf{x} - \epsilon)\)。相比对抗训练的优势：（a）不需要判别器和复杂损失设计，训练更稳定；（b）扩散模型学习数据分布，能从量化表征中"脑补"丢失的细节；（c）可扩展性更好——波形级模型需要大量上下采样，mel 谱图更紧凑
- 设计动机：确定性重建在激进压缩下会坍缩——把所有信息硬塞进 200bps 是不可能的。扩散模型承认"不是所有细节都能从 token 恢复"，转而学习条件分布 \(p(\mathbf{x}|\mathbf{z}_q)\)，这才是低 token 率下的正确建模方式
CTC 语义正则化
- 功能：确保离散 token 保留语义/语言信息
- 核心思路：在量化后嵌入 \(\mathbf{z}_q\) 上接入轻量 CTC 解码器 \(\mathcal{D}_{\phi_{\text{ctc}}}\)（4 层 Transformer），直接预测文本转录 \(\mathbf{y}\)。总损失 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{rec}} + \lambda_{\text{ctc}} \cdot \text{CTC}(\mathcal{D}_{\phi_{\text{ctc}}}(\mathbf{z}_q), \mathbf{y}) + \mathcal{L}_{\text{vq}}\)，其中 \(\lambda_{\text{ctc}}\) 是关键超参。实验显示 \(\lambda_{\text{ctc}} = 0.1\) 最优，过大（1.0）反而损害重建（WER 从 4.06 升至 10.1）
- 设计动机：区别于之前用 MSE/cosine 做 SSL 特征蒸馏的间接对齐方式，CTC 直接强制 token 能解码出文本——这是语义保留的最直接监督信号。不依赖任何外部 SSL 模型（如 HuBERT/WavLM），完全端到端
高效扩散解码（Shortcut Fine-tuning）
- 功能：将扩散推理步数从标准的多步压缩到 2-4 步
- 核心思路：冻结编码器和 VQ 模块，对解码器用 shortcut model 目标微调——训练网络额外接收步长 \(d\) 作为条件，联合优化 flow-matching 损失（\(d=0\) 对应真实速度）和自一致性损失（一大步 \(2d\) 的结果 ≈ 两小步 \(d\) 的连续结果），使模型学会"跳过中间步"。实际 RTF：16 步 0.041 → 4 步 0.013，加速 3.2 倍
- 设计动机：扩散解码的多步采样是部署瓶颈，shortcut 让模型自学加速策略，比传统蒸馏更灵活

损失函数 / 训练策略¶

总损失：\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{rec}} + 0.1 \cdot \mathcal{L}_{\text{ctc}} + \mathcal{L}_{\text{vq}}\)。训练用 AdamW，lr=8e-5，warmup 32K 步，单 epoch（~450K 步），2200 万小时内部语音数据。可选精炼：（1）Decoder finetuning（冻结编码器+VQ）；（2）Token CFG（10% 概率 drop token 训练无条件路径，推理时条件/无条件预测组合）。

实验关键数据¶

主实验（重建质量对比）¶

模型	FPS/TPS	码本数	比特率	WER↓	SIM↑	UTMOS↑
Ground Truth	-	-	-	2.14	0.730	3.53
DualCodec	12.5/75	6	0.925	2.63	0.624	3.78
X-codec 2	50/50	1	0.80	2.63	0.620	3.68
Mimi	12.5/75	6	0.825	4.51	0.527	3.09
FireRedTTS	25/25	1	0.35	3.35	0.597	3.40
CosyVoice	25/25	1	0.30	5.63	0.465	3.65
SiTok (CN=1)	12.5/12.5	1	0.20	4.06	0.641	3.44
+ Decoder FT	12.5/12.5	1	0.20	3.79	0.682	3.48
+ Token CFG	12.5/12.5	1	0.20	3.34	0.635	3.60

SiTok 在仅 200bps（所有基线最低比特率）下，WER 3.34%、SIM 0.682 均达到强竞争力。

消融实验（语义正则化效果）¶

CTC 正则化	TPS	重建 WER↓	SIM↑	UTMOS↑	LLM ASR↓	ER↑	SV↓	KS↑
✓ (λ=0.1)	12.5	4.06	0.641	3.44	4.95	63.5	13.8	96.9
✗	12.5	33.0	0.495	2.68	29.4	57.9	18.9	86.1
✓ (λ=0.1)	50	2.80	0.660	3.46	4.49	64.4	8.59	97.7
✗	50	5.17	0.611	2.84	7.27	60.4	13.5	92.8

没有 CTC 正则化的 12.5 TPS 模型 WER 飙升到 33.0%，证明语义正则化不是"锦上添花"而是"不可或缺"。

关键发现¶

模型缩放的非单调效应：从 0.63B (S) 到 1.61B (XL)，重建质量持续改善（WER 4.18→3.84），但理解任务在 1.12B (L) 达峰，更大模型在 SV 上反而退化（13.8→14.7），暗示过大容量可能过度编码声学细节而非抽象语义
Token CFG 和 Decoder FT 互补：CFG 主要降低 WER（3.34），FT 主要提升说话人相似度（0.682），可按需组合
CTC 权重 \(\lambda_{\text{ctc}}\) 是敏感超参：0.1 最优，0.02 重建好但理解差，0.5-1.0 重建也恶化（过度约束潜空间）
仅用回归损失（R）训练的 tokenizer 表现差：WER 4.66 且所有理解指标下降，扩散损失（D）是核心

亮点与洞察¶

"不确定性需要生成式建模"的洞察深刻：低 token 率量化不可避免丢失信息，用确定性重建试图"完美恢复"注定失败，扩散模型承认不确定性并学习条件分布，这是正确的建模哲学。这一洞察可迁移到任何高压缩比离散化场景
CTC 监督的极简有效性：不需要外部 SSL 模型、不需要特征对齐的复杂设计，一个 4 层 CTC 头直接预测文本就够了。关键是监督信号放在量化后（而非量化前），直接塑造离散 token 的语义性质
Mel 谱图作为中间表示的务实选择：避免了波形级建模的长序列和不稳定训练，虽然需要外部 vocoder，但解耦设计使 tokenizer 和 vocoder 可独立优化升级

局限与展望¶

依赖外部 Vocoder：mel 到波形的转换依赖 Vocos，整体质量受 vocoder 瓶颈限制
训练数据为内部数据：2200 万小时语音数据不公开，可复现性受限
以英语为主：虽声称覆盖多语言，但英语占绝大多数，多语言泛化性未充分验证
扩散解码延迟：即使 shortcut 后仍需 2-4 步迭代，实时交互场景下延迟可能不够低
L 和 XL 模型的理解性能倒退：更大模型在理解任务上并非更好，提示需要更好的训练策略或结构设计来平衡声学和语义

评分¶

新颖性: ⭐⭐⭐⭐ 扩散自编码器 + CTC 的组合有创新性，但各组件并非全新，核心贡献在于规模化验证和系统性设计
实验充分度: ⭐⭐⭐⭐⭐ 覆盖重建/理解/生成三大场景，丰富的消融（损失、码本、模型规模、解码步数），对比全面
写作质量: ⭐⭐⭐⭐ 结构清晰，motivation 论证充分，数学描述准确
价值: ⭐⭐⭐⭐⭐ 在极低比特率下统一理解和生成的语音 tokenizer 对语音语言模型发展有重要推动作用