跳转至

BNMusic: Blending Environmental Noises into Personalized Music

会议: NeurIPS 2025
arXiv: 2506.10754
代码: https://d-fas.github.io/BNMusic_page/
领域: 音频生成
关键词: noise blending, auditory masking, music generation, spectrogram inpainting, psychoacoustics

一句话总结

提出 BNMusic,一个两阶段框架将环境噪声融合到个性化生成音乐中:第一阶段通过 mel-spectrogram 的 outpainting + inpainting 生成与噪声节奏对齐的音乐,第二阶段利用听觉掩蔽理论自适应放大音乐信号以降低噪声感知,无需额外训练,在 EPIC-SOUNDS 和 ESC-50 上显著优于 baseline。

研究背景与动机

  1. 领域现状:在公共环境中(地铁、电梯等),人们常受持续噪声困扰。主动噪声消除(ANC)有效但需个人设备,不适用于群体场景。传统声学掩蔽需要大音量且掩蔽音与噪声不对齐。
  2. 现有痛点:(1) ANC 限于个人使用,无法服务群体;(2) 传统掩蔽中掩蔽音与噪声的不对齐(如节拍不匹配)需要过高音量才能有效;(3) 现有音乐生成模型在噪声输入上表现差,因为它们是在干净音频上训练的。
  3. 核心矛盾:如何在合理音量下有效降低噪声感知?关键在于让掩蔽音(音乐)的节奏和频谱特征与噪声对齐。
  4. 本文要解决什么? 给定环境噪声和用户文本提示,生成与噪声节奏和频谱对齐的音乐,使噪声融入音乐而不被感知。
  5. 切入角度:基于心理声学的听觉掩蔽理论——当音乐的频率-时间特征与噪声对齐时,只需较小的信噪比即可实现掩蔽。利用 mel-spectrogram 域的图像生成技术(inpainting/outpainting)来生成对齐的音乐。
  6. 核心 idea 一句话:将噪声的高能区域作为"画布",用 spectrogram outpainting 扩展音乐模式,再用 inpainting 重建高能区域,最后自适应放大来增强掩蔽效果。

方法详解

整体框架

输入:噪声音频 + 文本提示。预处理:转换为 mel-spectrogram,创建高能区域掩膜。Stage 1:双步 outpainting + inpainting 生成对齐音乐的 mel-spectrogram。Stage 2:基于掩蔽阈值自适应放大。输出:可与噪声融合的音乐音频。

关键设计

  1. Stage 1: 噪声对齐的音乐合成:
  2. 做什么:生成与噪声节奏和频谱对齐的音乐。
  3. 核心思路:(1) 预处理——将噪声 mel-spectrogram 的高能区域用二值掩膜标出。(2) Outpainting——保留高能噪声区域,生成周围的音乐内容,让核心噪声信息向外扩散到音乐纹理中。(3) Inpainting——反转掩膜,在高能区域内重建音乐内容,将之前扩散的音乐信息重新整合到核心区域。这使得最终音乐完整地继承了噪声的节奏特征。
  4. 设计动机:直接从噪声生成音乐效果差(模型未见过噪声输入)。两步法利用 outpainting 先建立音乐框架,再用 inpainting 填充核心区域——类似"从外到内"的构图策略。

  5. Stage 2: 自适应放大:

  6. 做什么:在保持舒适音量的前提下最大化掩蔽效果。
  7. 核心思路:基于心理声学模型计算掩蔽阈值矩阵 \(\mathbf{T}_\text{Mask}\)(每个频率-时间 bin 上需要多大能量才能掩蔽噪声)。用梯度下降找最优放大因子 \(\lambda^*\),优化目标在"最大化掩蔽覆盖率"和"最小化总音量"之间平衡:\(\lambda^* = \arg\min_\lambda \{\text{SUM}(\alpha \cdot \mathbf{S}'_\text{Music}) + \text{SUM}(\max[(\mathbf{T}_\text{Mask} - \mathbf{S}'_\text{Music}) \odot \mathbf{M}, 0])\}\)
  8. 设计动机:由于 Stage 1 已经对齐了频谱特征,只需适度放大即可达到有效掩蔽,避免了传统掩蔽的"暴力提音量"策略。

  9. 利用现有模型无需额外训练:

  10. 做什么:基于 Riffusion(Stable Diffusion 的音乐微调版)实现,无需额外训练。
  11. 核心思路:将噪声 mel-spectrogram 作为图像编辑的输入,利用 Riffusion 的 inpainting/outpainting 能力。
  12. 设计动机:避免了收集"噪声-音乐配对"训练数据的成本,利用已有生成模型的泛化能力。

损失函数 / 训练策略

无训练。Stage 1 使用 Riffusion 的 LDM 推理(DDPM 去噪过程)。Stage 2 使用梯度下降优化放大因子 \(\lambda\)。总参数 \(\alpha=0.14\)。推理约 5 秒/样本(Nvidia 4090)。

实验关键数据

主实验

方法 FAD (EPIC) KL (EPIC) FAD (ESC-50) KL (ESC-50)
Noise Only 34.17 - 27.39 -
Random Music 14.22 2.22 8.45 2.49
MusicGen 13.28 2.14 8.62 2.43
Riffusion A2A 20.06 2.90 12.62 3.26
BNMusic 12.86 2.03 8.09 2.38

消融实验

组件 FAD KL
无任何处理 34.17 -
Outpainting only 改善 改善
+ Inpainting 进一步改善 进一步改善
+ 自适应放大 最优 最优

主观评测

方法 OVL (整体质量) PER (噪声感知)
Random Music 2.93 2.63
MusicGen 2.97 2.68
Riffusion A2A 2.95 3.24
BNMusic 3.67 3.84

关键发现

  • BNMusic 在客观和主观评估上均全面领先,OVL +0.7,PER +0.6 (5分制)。
  • Riffusion A2A 噪声抑制好但音乐性差(FAD 最高=音乐质量最差),输出太像噪声。
  • 每个组件都有贡献:outpainting 建立框架,inpainting 保证一致性,自适应放大增强掩蔽。
  • MusicGen 虽然有旋律感知能力但噪声融合效果有限——说明融合不仅需要旋律对齐,还需要频谱对齐。
  • BNMusic 生成的音乐频谱差异热力图最均匀——与噪声的能量分布最一致。

亮点与洞察

  • 将噪声掩蔽问题转化为图像编辑问题是核心创新:mel-spectrogram 域中的 outpainting/inpainting 自然对应"围绕噪声构建音乐"的概念。
  • 两步法(outpainting -> inpainting)的设计很巧妙:先让噪声的节奏信息扩散到音乐纹理中,再将音乐信息填充回噪声区域——类似"由简入繁"的作曲过程。
  • 心理声学理论(SMR 阈值)指导的自适应放大确保了科学合理的掩蔽策略。

局限性 / 可改进方向

  • 依赖 Riffusion 的生成质量:Riffusion 在复杂音乐类型上的表现有限。未来可尝试更强的音乐生成模型。
  • 仅处理重复性噪声:对于突发性、非周期性噪声,节奏对齐策略可能失效。
  • 实时性:当前处理需要约 5 秒,对实时场景(如地铁列车中动态噪声)还不够快。
  • 仅考虑单声道:未处理空间音频和多声道场景。

相关工作与启发

  • vs ANC: ANC 消除噪声(个人设备),BNMusic 融合噪声(群体场景)——两者互补而非替代。
  • vs 传统声学掩蔽: 传统方法用固定声音掩蔽,BNMusic 生成与噪声对齐的个性化音乐,所需音量更低。
  • vs AudioLDM/MusicGen: 这些模型从干净输入生成音乐,BNMusic 创新性地从噪声输入出发。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 全新任务定义(噪声融合),跨学科(心理声学+生成模型)
  • 实验充分度: ⭐⭐⭐⭐ 客观+主观评估全面,消融完整
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,心理声学原理解释好
  • 价值: ⭐⭐⭐⭐ 全新任务的开创性工作,但实际部署还有距离