Audio Super-Resolution with Latent Bridge Models¶
会议: NeurIPS 2025
arXiv: 2509.17609
代码: Demo
领域: 音频生成 / 扩散模型 / 超分辨率
关键词: audio super-resolution, bridge model, latent space, frequency-aware, cascaded generation
一句话总结¶
提出 AudioLBM,在波形隐空间中用桥模型实现 LR-to-HR latent-to-latent 音频超分,配合频率感知训练和级联设计,LSD 平均改善 21.5%,首次实现 any-to-192kHz 音频超分。
研究背景与动机¶
-
领域现状:音频 SR 在录音修复、助听器、生成音频后处理中的应用。AudioSR 用扩散模型在 mel 谱图隐空间做 noise-to-latent 实现 any-to-48kHz。
-
现有痛点:(a) AudioSR 从无信息高斯噪声出发,忽略 LR 波形先验;(b) A2SB 在 STFT 域做桥但将缺失高频填高斯噪声;(c) 高分辨率数据稀缺;(d) >48kHz 超分从未被探索。
-
核心矛盾:SR 是 LR→HR 数据变换,但现有方法用 noise→data 生成范式,先验不匹配。
-
切入角度:波形直接压缩的隐空间中 LR/HR latent 高度相关——桥模型 latent-to-latent 完美匹配 SR。
-
核心 idea 一句话:波形隐空间 + 桥模型 = LR-latent→HR-latent 生成匹配 SR 本质。
方法详解¶
整体框架¶
(1) 波形 VAE 压缩到连续隐空间;(2) 频率感知 LBM 以 LR latent 为先验、HR latent 为目标做桥训练;(3) 级联 LBM 实现 48→96→192kHz。
关键设计¶
- 隐空间桥模型:桥过程 \(z_t\) 插值 \(z_0=z^{\text{HR}}\) 和 \(z_T=z^{\text{LR}}\),用 Dirac 先验替代高斯,噪声预测目标训练。
- 频率感知训练:随机采样 HR/LR 频率对作为条件,同一样本贡献多个训练对,解决数据稀缺。
- 级联 LBM + 先验增强:波形域低通滤波 + 隐空间高斯模糊,确定性退化匹配桥模型。
实验关键数据¶
主实验:any-to-48kHz¶
| 指标 | vs AudioSR | 改善 |
|---|---|---|
| LSD↓ | 基线 | -21.5% |
| ViSQOL↑ | 基线 | +3.05% |
- 首次实现 any-to-192kHz 音频超分
- 语音/音效/音乐三领域全面 SOTA
关键发现¶
- 桥模型 vs 扩散:latent-to-latent 显著优于 noise-to-latent
- 噪声预测在隐空间优于数据预测
- 频率感知训练有效弥补数据不足
亮点与洞察¶
- 桥模型完美匹配 SR 任务的洞察精准
- 频率感知训练巧妙解决高分辨率数据稀缺
- 首个 192kHz 超分开辟专业音频后制新领域
局限性 / 可改进方向¶
- VAE 压缩质量是系统上限
- 级联误差累积限制 192kHz 质量
- 仅单通道,立体声未处理
相关工作与启发¶
- vs AudioSR:noise-to-latent + mel 谱图隐空间;AudioLBM 用 latent-to-latent + 波形隐空间
- vs A2SB:STFT 域桥有区域移除;AudioLBM 在波形隐空间避免此问题
评分¶
- 新颖性: ⭐⭐⭐⭐ 波形隐空间+桥模型组合新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集+多领域+级联到192kHz
- 写作质量: ⭐⭐⭐⭐ 方法清晰,motivation 好
- 价值: ⭐⭐⭐⭐⭐ 首次192kHz超分,实际价值高