Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis¶

会议: NeurIPS 2025
arXiv: 2505.12226
代码: 有
领域: 语音合成 / 生成模型
关键词: Flow Matching, TTS, 粗到细生成, 浅层推理, ODE求解

一句话总结¶

提出 Shallow Flow Matching（SFM），在粗到细 TTS 框架中利用弱生成器输出构建 flow matching 中间状态，使推理从中间状态而非纯噪声出发，同时提升合成质量和加速推理。

研究背景与动机¶

当前基于 Flow Matching（FM）的 TTS 模型通常采用粗到细的生成范式：弱生成器先产生粗糙 mel-spectrogram，再由 FM 模块精炼为高质量输出。然而，传统做法仅将粗糙表示作为 FM 的条件输入，生成仍然从纯噪声 \(\boldsymbol{X}_0 \sim \mathcal{N}(0, I)\) 出发。由于粗糙表示已经编码了大量语义和声学结构，从纯噪声建模早期阶段是冗余的，浪费了建模能力。

作者受到 DiffSinger 中"浅层扩散"思想的启发：在扩散模型中从浅层步骤开始反向生成。本文将此思想推广到 Flow Matching 框架，提出了 SFM 机制——利用正交投影将弱生成器输出映射到 CondOT 路径上的中间状态，推理时直接从该中间状态出发，跳过早期阶段。

方法详解¶

整体框架¶

SFM 框架包含三个核心部分：(1) 弱生成器 \(\boldsymbol{g}_\omega\) 产生粗糙 mel-spectrogram \(\hat{\boldsymbol{X}}_g\)；(2) 轻量级 SFM head \(\boldsymbol{h}_\psi\) 输出缩放后的 mel-spectrogram \(\hat{\boldsymbol{X}}_h\)、时间 \(\hat{t}_h\) 和方差 \(\hat{\sigma}_h^2\)；(3) FM 解码器从构建的中间状态开始生成。推理时，ODE 求解器从 \(\tilde{t}_h\) 积分到 1，而非从 0 到 1。

关键设计¶

正交投影映射（Orthogonal Projection onto CondOT Paths）: 核心思路是将 SFM head 输出 \(\hat{\boldsymbol{X}}_h\) 投影到目标 \(\boldsymbol{X}_1\) 上，求投影系数 \(t_h\) 作为对应时间。公式为 \(t_h = \max(0, \mathbb{E}[\text{sg}[\hat{\boldsymbol{X}}_h] \cdot \boldsymbol{X}_1 / (\boldsymbol{X}_1 \cdot \boldsymbol{X}_1)])\)。利用 Theorem 1 将 \(\hat{\boldsymbol{X}}_h\) 通过缩放因子 \(1/\Delta\) 归到 CondOT 路径上。设计动机是自适应确定 \(\hat{\boldsymbol{X}}_h\) 在 FM 路径上的位置，避免手动设定浅层步。
单段分段流（Single-Segment Piecewise Flow）: 基于 Theorem 2 将 CondOT 路径在中间状态 \(\tilde{t}_h\) 处分为两段，训练和推理只关注后半段 \(t \geq \tilde{t}_h\)。流和向量场为分段定义：\(\boldsymbol{X}_t = (1-t_S)\boldsymbol{X}_{\tilde{t}_h} + t_S(\boldsymbol{X}_1 + \sigma_{\min}\boldsymbol{X}_0)\)，训练使用 CFM loss 对后半段进行监督。
SFM 推理强度（SFM Strength \(\alpha\)）: 训练时自适应确定的 \(t_h\) 通常偏小，推理时引入超参数 \(\alpha \geq 1\) 放大 \(\hat{t}_h\)，增强粗糙表示的引导强度。通过在验证集上搜索最优 \(\alpha\) 来平衡质量和确定性。

损失函数 / 训练策略¶

总损失为五项之和：

\[\mathcal{L}_{\text{SFM}} = \mathcal{L}_{\text{coarse}} + \mathcal{L}_t + \mathcal{L}_\sigma + \mathcal{L}_\mu + \mathcal{L}_{\text{CFM}}\]

\(\mathcal{L}_{\text{coarse}}\): 粗糙 mel-spectrogram 的 L2 损失
\(\mathcal{L}_\mu\): 引导 \(\hat{\boldsymbol{X}}_h\) 靠近 \(t_h \boldsymbol{X}_1\)
\(\mathcal{L}_t, \mathcal{L}_\sigma\): 预测时间和方差的 MSE 损失
\(\mathcal{L}_{\text{CFM}}\): 条件流匹配损失

实验关键数据¶

主实验¶

在 LJ Speech、VCTK、LibriTTS 上验证，覆盖 Matcha-TTS（U-Net）、StableTTS（DiT）、CosyVoice 等多个骨干模型。

系统	UTMOS↑	UTMOSv2↑	Distill-MOS↑	WER↓	CMOS↑
Matcha-TTS Baseline (LJ)	4.186	3.692	4.282	3.308	-0.48
Matcha-TTS Ablated (LJ)	4.217	3.763	4.311	3.355	-0.27
Matcha-TTS SFM (LJ)	4.257	3.848	4.386	3.413	0.00
Ground Truth	4.380	3.964	4.241	3.566	+0.22

消融实验¶

\(\alpha\)	\(\tilde{t}_g\)	\(\tilde{\sigma}_g\)	PMOS↑	UTMOS↑	WER↓
1.0	0.099	0.092	4.036	4.194	4.641
2.0	0.198	0.183	4.158	4.305	3.496
2.5	0.248	0.229	4.176	4.276	3.556
5.0	0.496	0.458	4.025	3.977	3.376
10.0	0.520	0.480	3.987	3.955	3.315

关键发现¶

SFM 在所有测试的 TTS 模型上均带来一致的自然度提升（客观和主观评估均显著）
使用自适应步长 ODE 求解器时，SFM 显著加速推理（NFE 大幅减少）
最优 \(\alpha\) 通常在 2-4 之间，过大会降低质量
SFM-c（同时使用条件+SFM）的效果不如仅用 SFM，说明中间状态已包含充分信息

亮点与洞察¶

核心创新在于将"浅层扩散"从 DDPM 推广到 Flow Matching，通过正交投影和分段流提供了严格的数学框架
轻量级 SFM head 设计使方法可即插即用地集成到多种 TTS 架构中
自适应确定中间状态位置（而非手动设定），比浅层扩散更灵活
推理时 SFM strength \(\alpha\) 提供了质量-速度的灵活权衡

局限与展望¶

SFM head 的投影假设 \(\hat{\boldsymbol{X}}_h \approx t_h \boldsymbol{X}_1\) 可能在某些情况下不准确
目前仅在 TTS 上验证，未探索其他 FM 应用（图像、视频生成）
\(\alpha\) 需要在验证集上搜索，增加了部署成本
训练阶段早期 \(\Delta \geq 1\) 时退化为确定性行为，可能影响训练稳定性

评分¶

新颖性: ⭐⭐⭐⭐ — 将浅层扩散推广到 FM 并提供严格数学框架
实验充分度: ⭐⭐⭐⭐⭐ — 多模型、多数据集、主观+客观评估、速度分析
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，实验组织良好
价值: ⭐⭐⭐⭐ — 即插即用的 FM 加速方法，实用性强