跳转至

Audio Super-Resolution with Latent Bridge Models

会议: NeurIPS 2025
arXiv: 2509.17609
代码: Demo
领域: 音频生成 / 扩散模型 / 超分辨率
关键词: audio super-resolution, bridge model, latent space, frequency-aware, cascaded generation

一句话总结

提出 AudioLBM,在波形隐空间中用桥模型实现 LR-to-HR latent-to-latent 音频超分,配合频率感知训练和级联设计,LSD 平均改善 21.5%,首次实现 any-to-192kHz 音频超分。

研究背景与动机

  1. 领域现状:音频 SR 在录音修复、助听器、生成音频后处理中的应用。AudioSR 用扩散模型在 mel 谱图隐空间做 noise-to-latent 实现 any-to-48kHz。

  2. 现有痛点:(a) AudioSR 从无信息高斯噪声出发,忽略 LR 波形先验;(b) A2SB 在 STFT 域做桥但将缺失高频填高斯噪声;(c) 高分辨率数据稀缺;(d) >48kHz 超分从未被探索。

  3. 核心矛盾:SR 是 LR→HR 数据变换,但现有方法用 noise→data 生成范式,先验不匹配。

  4. 切入角度:波形直接压缩的隐空间中 LR/HR latent 高度相关——桥模型 latent-to-latent 完美匹配 SR。

  5. 核心 idea 一句话:波形隐空间 + 桥模型 = LR-latent→HR-latent 生成匹配 SR 本质。

方法详解

整体框架

(1) 波形 VAE 压缩到连续隐空间;(2) 频率感知 LBM 以 LR latent 为先验、HR latent 为目标做桥训练;(3) 级联 LBM 实现 48→96→192kHz。

关键设计

  1. 隐空间桥模型:桥过程 \(z_t\) 插值 \(z_0=z^{\text{HR}}\)\(z_T=z^{\text{LR}}\),用 Dirac 先验替代高斯,噪声预测目标训练。
  2. 频率感知训练:随机采样 HR/LR 频率对作为条件,同一样本贡献多个训练对,解决数据稀缺。
  3. 级联 LBM + 先验增强:波形域低通滤波 + 隐空间高斯模糊,确定性退化匹配桥模型。

实验关键数据

主实验:any-to-48kHz

指标 vs AudioSR 改善
LSD↓ 基线 -21.5%
ViSQOL↑ 基线 +3.05%
  • 首次实现 any-to-192kHz 音频超分
  • 语音/音效/音乐三领域全面 SOTA

关键发现

  • 桥模型 vs 扩散:latent-to-latent 显著优于 noise-to-latent
  • 噪声预测在隐空间优于数据预测
  • 频率感知训练有效弥补数据不足

亮点与洞察

  • 桥模型完美匹配 SR 任务的洞察精准
  • 频率感知训练巧妙解决高分辨率数据稀缺
  • 首个 192kHz 超分开辟专业音频后制新领域

局限性 / 可改进方向

  • VAE 压缩质量是系统上限
  • 级联误差累积限制 192kHz 质量
  • 仅单通道,立体声未处理

相关工作与启发

  • vs AudioSR:noise-to-latent + mel 谱图隐空间;AudioLBM 用 latent-to-latent + 波形隐空间
  • vs A2SB:STFT 域桥有区域移除;AudioLBM 在波形隐空间避免此问题

评分

  • 新颖性: ⭐⭐⭐⭐ 波形隐空间+桥模型组合新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 多数据集+多领域+级联到192kHz
  • 写作质量: ⭐⭐⭐⭐ 方法清晰,motivation 好
  • 价值: ⭐⭐⭐⭐⭐ 首次192kHz超分,实际价值高