Audio Super-Resolution with Latent Bridge Models¶

会议: NeurIPS 2025
arXiv: 2509.17609
代码: Demo
领域: 音频生成 / 扩散模型 / 超分辨率
关键词: audio super-resolution, bridge model, latent space, frequency-aware, cascaded generation

一句话总结¶

提出 AudioLBM，在波形隐空间中用桥模型实现 LR-to-HR latent-to-latent 音频超分，配合频率感知训练和级联设计，LSD 平均改善 21.5%，首次实现 any-to-192kHz 音频超分。

研究背景与动机¶

领域现状：音频 SR 在录音修复、助听器、生成音频后处理中的应用。AudioSR 用扩散模型在 mel 谱图隐空间做 noise-to-latent 实现 any-to-48kHz。
现有痛点：(a) AudioSR 从无信息高斯噪声出发，忽略 LR 波形先验；(b) A2SB 在 STFT 域做桥但将缺失高频填高斯噪声；(c) 高分辨率数据稀缺；(d) >48kHz 超分从未被探索。
核心矛盾：SR 是 LR→HR 数据变换，但现有方法用 noise→data 生成范式，先验不匹配。
切入角度：波形直接压缩的隐空间中 LR/HR latent 高度相关——桥模型 latent-to-latent 完美匹配 SR。
核心 idea 一句话：波形隐空间 + 桥模型 = LR-latent→HR-latent 生成匹配 SR 本质。

方法详解¶

整体框架¶

(1) 波形 VAE 压缩到连续隐空间；(2) 频率感知 LBM 以 LR latent 为先验、HR latent 为目标做桥训练；(3) 级联 LBM 实现 48→96→192kHz。

关键设计¶

隐空间桥模型：桥过程 \(z_t\) 插值 \(z_0=z^{\text{HR}}\) 和 \(z_T=z^{\text{LR}}\)，用 Dirac 先验替代高斯，噪声预测目标训练。
频率感知训练：随机采样 HR/LR 频率对作为条件，同一样本贡献多个训练对，解决数据稀缺。
级联 LBM + 先验增强：波形域低通滤波 + 隐空间高斯模糊，确定性退化匹配桥模型。

实验关键数据¶

主实验：any-to-48kHz¶

指标	vs AudioSR	改善
LSD↓	基线	-21.5%
ViSQOL↑	基线	+3.05%

首次实现 any-to-192kHz 音频超分
语音/音效/音乐三领域全面 SOTA

关键发现¶

桥模型 vs 扩散：latent-to-latent 显著优于 noise-to-latent
噪声预测在隐空间优于数据预测
频率感知训练有效弥补数据不足

亮点与洞察¶

桥模型完美匹配 SR 任务的洞察精准
频率感知训练巧妙解决高分辨率数据稀缺
首个 192kHz 超分开辟专业音频后制新领域

局限性 / 可改进方向¶

VAE 压缩质量是系统上限
级联误差累积限制 192kHz 质量
仅单通道，立体声未处理

评分¶

新颖性: ⭐⭐⭐⭐ 波形隐空间+桥模型组合新颖
实验充分度: ⭐⭐⭐⭐⭐ 多数据集+多领域+级联到192kHz
写作质量: ⭐⭐⭐⭐ 方法清晰，motivation 好
价值: ⭐⭐⭐⭐⭐ 首次192kHz超分，实际价值高