FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation¶

会议: ACL 2025
arXiv: 2410.12266
代码: https://github.com/liuhuadai/FlashAudio
领域: 文本生成
关键词: 文本转音频, 整流流, 快速生成, 扩散模型加速, 单步生成

一句话总结¶

将整流流（Rectified Flow）引入文本转音频生成，通过双焦采样器优化时间步分布、不混溶流减少数据-噪声总距离、锚定优化修正 CFG 引导误差，实现单步生成 FAD=1.49 超越百步扩散模型，生成速度达实时 400 倍。

领域现状：基于潜在扩散模型（LDM）的文本转音频（TTA）生成已取得显著进展。AudioLDM2、TANGO2 等模型通常需要 100 步迭代采样才能生成高质量音频。
现有痛点：(a) 迭代采样计算成本高，限制实时部署；(b) 一致性蒸馏方法（如 AudioLCM）虽能减少步数，但弯曲轨迹导致误差累积，单步性能无法超越扩散模型；(c) Classifier-Free Guidance（CFG）在少步生成中会放大累积误差。
核心矛盾：弯曲轨迹需要多步积分才能准确模拟，而直线轨迹理论上一步即可——但如何在 TTA 领域实现真正直的流轨迹？
本文要解决什么？ 将整流流应用于 TTA，解决其训练中时间步分配不佳、噪声-数据配对次优、CFG 误差放大等实际问题。
切入角度：整流流已在图像生成（Stable Diffusion 3/InstaFlow）和 TTS 中成功应用，但 TTA 领域尚未探索。从预训练流匹配模型初始化可加速收敛。
核心idea一句话：用整流流学直线路径实现快速模拟，配合三项训练优化使单步生成质量超越百步扩散模型。

从预训练的条件流匹配（CFM）模型初始化，经过三阶段优化：(1) 用改进的 1-整流流训练学习直线轨迹；(2) Reflow 进一步拉直轨迹得到 2-整流流；(3) 蒸馏得到单步生成模型。推理时仅需 1-4 步即可生成高质量音频。

双焦采样器（Bifocal Samplers）:
做什么：优化训练时间步的采样分布
核心思路：整流流在 \(t=0\)（纯噪声）和 \(t=1\)（纯数据）附近相对容易学习，中间时间步最困难。用 logit-normal 分布增加中间时间步的采样频率，并叠加 Beta 分布增加边界时间步的采样，形成两个焦点（中间+边界）
设计动机：均匀采样浪费计算资源在简单时间步上；双焦聚焦于最有挑战性的区域
不混溶流（Immiscible Flow）:
做什么：优化 batch 内数据-噪声对的分配
核心思路：用最优传输（线性分配）最小化同一 batch 内数据点和噪声点的总传输距离，使每个数据点配对最近的噪声点
设计动机：随机配对可能导致远距离数据-噪声对，使流轨迹交叉——不混溶流减少交叉，使轨迹更直
锚定优化（Anchored Optimization）:
做什么：修正 CFG 在整流流中引起的误差放大
核心思路：在 reflow 生成噪声-数据配对时，不直接使用 CFG 引导的轨迹，而是将引导尺度锚定到 \(\omega=1\)（无引导）的参考轨迹上，通过 \(\hat{v}_\theta = v_\theta + (\omega-1)\frac{\partial v_\theta}{\partial \omega}\bigg|_{\omega=1}\) 进行一阶修正
设计动机：CFG 改变了边际分布，导致 reflow 的直线化假设被破坏。锚定到参考轨迹可减少分布偏移

模型	步数(NFE)	FAD(↓)	KL(↓)	CLAP(↑)	RTF(↓)	MOS-Q
AudioLDM 2	100	1.90	1.48	0.622	1.250	73.38
TANGO 2	100	2.84	1.20	0.680	0.800	73.46
AudioLCM	2	1.67	1.37	0.617	0.003	76.48
ConsistencyTTA	1	2.13	1.33	0.655	0.004	73.19
FlashAudio (24步)	24	1.18	1.28	0.658	0.054	78.86
FlashAudio (4步)	4	1.26	1.30	0.652	0.014	78.23
FlashAudio (1步+蒸馏)	1	1.49	1.32	0.648	0.0025	77.56

配置	FAD(↓)	KL(↓)	CLAP(↑)	说明
1-RF w/ Logit-Normal	1.12	1.25	0.659	完整模型
1-RF w/o Logit-Normal	1.08	1.27	0.649	KL和CLAP变差
w/o Immiscible Flow	性能下降			证实不混溶流重要
w/o CFM预训练初始化	显著下降			预训练初始化关键
CFG无锚定优化	FAD 1.43			CLAP 0.639
CFG+锚定优化	FAD 1.26			CLAP 0.652