BNMusic: Blending Environmental Noises into Personalized Music¶
会议: NeurIPS 2025
arXiv: 2506.10754
代码: https://d-fas.github.io/BNMusic_page/
领域: 音频生成
关键词: noise blending, auditory masking, music generation, spectrogram inpainting, psychoacoustics
一句话总结¶
提出 BNMusic,一个两阶段框架将环境噪声融合到个性化生成音乐中:第一阶段通过 mel-spectrogram 的 outpainting + inpainting 生成与噪声节奏对齐的音乐,第二阶段利用听觉掩蔽理论自适应放大音乐信号以降低噪声感知,无需额外训练,在 EPIC-SOUNDS 和 ESC-50 上显著优于 baseline。
研究背景与动机¶
- 领域现状:在公共环境中(地铁、电梯等),人们常受持续噪声困扰。主动噪声消除(ANC)有效但需个人设备,不适用于群体场景。传统声学掩蔽需要大音量且掩蔽音与噪声不对齐。
- 现有痛点:(1) ANC 限于个人使用,无法服务群体;(2) 传统掩蔽中掩蔽音与噪声的不对齐(如节拍不匹配)需要过高音量才能有效;(3) 现有音乐生成模型在噪声输入上表现差,因为它们是在干净音频上训练的。
- 核心矛盾:如何在合理音量下有效降低噪声感知?关键在于让掩蔽音(音乐)的节奏和频谱特征与噪声对齐。
- 本文要解决什么? 给定环境噪声和用户文本提示,生成与噪声节奏和频谱对齐的音乐,使噪声融入音乐而不被感知。
- 切入角度:基于心理声学的听觉掩蔽理论——当音乐的频率-时间特征与噪声对齐时,只需较小的信噪比即可实现掩蔽。利用 mel-spectrogram 域的图像生成技术(inpainting/outpainting)来生成对齐的音乐。
- 核心 idea 一句话:将噪声的高能区域作为"画布",用 spectrogram outpainting 扩展音乐模式,再用 inpainting 重建高能区域,最后自适应放大来增强掩蔽效果。
方法详解¶
整体框架¶
输入:噪声音频 + 文本提示。预处理:转换为 mel-spectrogram,创建高能区域掩膜。Stage 1:双步 outpainting + inpainting 生成对齐音乐的 mel-spectrogram。Stage 2:基于掩蔽阈值自适应放大。输出:可与噪声融合的音乐音频。
关键设计¶
- Stage 1: 噪声对齐的音乐合成:
- 做什么:生成与噪声节奏和频谱对齐的音乐。
- 核心思路:(1) 预处理——将噪声 mel-spectrogram 的高能区域用二值掩膜标出。(2) Outpainting——保留高能噪声区域,生成周围的音乐内容,让核心噪声信息向外扩散到音乐纹理中。(3) Inpainting——反转掩膜,在高能区域内重建音乐内容,将之前扩散的音乐信息重新整合到核心区域。这使得最终音乐完整地继承了噪声的节奏特征。
-
设计动机:直接从噪声生成音乐效果差(模型未见过噪声输入)。两步法利用 outpainting 先建立音乐框架,再用 inpainting 填充核心区域——类似"从外到内"的构图策略。
-
Stage 2: 自适应放大:
- 做什么:在保持舒适音量的前提下最大化掩蔽效果。
- 核心思路:基于心理声学模型计算掩蔽阈值矩阵 \(\mathbf{T}_\text{Mask}\)(每个频率-时间 bin 上需要多大能量才能掩蔽噪声)。用梯度下降找最优放大因子 \(\lambda^*\),优化目标在"最大化掩蔽覆盖率"和"最小化总音量"之间平衡:\(\lambda^* = \arg\min_\lambda \{\text{SUM}(\alpha \cdot \mathbf{S}'_\text{Music}) + \text{SUM}(\max[(\mathbf{T}_\text{Mask} - \mathbf{S}'_\text{Music}) \odot \mathbf{M}, 0])\}\)。
-
设计动机:由于 Stage 1 已经对齐了频谱特征,只需适度放大即可达到有效掩蔽,避免了传统掩蔽的"暴力提音量"策略。
-
利用现有模型无需额外训练:
- 做什么:基于 Riffusion(Stable Diffusion 的音乐微调版)实现,无需额外训练。
- 核心思路:将噪声 mel-spectrogram 作为图像编辑的输入,利用 Riffusion 的 inpainting/outpainting 能力。
- 设计动机:避免了收集"噪声-音乐配对"训练数据的成本,利用已有生成模型的泛化能力。
损失函数 / 训练策略¶
无训练。Stage 1 使用 Riffusion 的 LDM 推理(DDPM 去噪过程)。Stage 2 使用梯度下降优化放大因子 \(\lambda\)。总参数 \(\alpha=0.14\)。推理约 5 秒/样本(Nvidia 4090)。
实验关键数据¶
主实验¶
| 方法 | FAD (EPIC) | KL (EPIC) | FAD (ESC-50) | KL (ESC-50) |
|---|---|---|---|---|
| Noise Only | 34.17 | - | 27.39 | - |
| Random Music | 14.22 | 2.22 | 8.45 | 2.49 |
| MusicGen | 13.28 | 2.14 | 8.62 | 2.43 |
| Riffusion A2A | 20.06 | 2.90 | 12.62 | 3.26 |
| BNMusic | 12.86 | 2.03 | 8.09 | 2.38 |
消融实验¶
| 组件 | FAD | KL |
|---|---|---|
| 无任何处理 | 34.17 | - |
| Outpainting only | 改善 | 改善 |
| + Inpainting | 进一步改善 | 进一步改善 |
| + 自适应放大 | 最优 | 最优 |
主观评测¶
| 方法 | OVL (整体质量) | PER (噪声感知) |
|---|---|---|
| Random Music | 2.93 | 2.63 |
| MusicGen | 2.97 | 2.68 |
| Riffusion A2A | 2.95 | 3.24 |
| BNMusic | 3.67 | 3.84 |
关键发现¶
- BNMusic 在客观和主观评估上均全面领先,OVL +0.7,PER +0.6 (5分制)。
- Riffusion A2A 噪声抑制好但音乐性差(FAD 最高=音乐质量最差),输出太像噪声。
- 每个组件都有贡献:outpainting 建立框架,inpainting 保证一致性,自适应放大增强掩蔽。
- MusicGen 虽然有旋律感知能力但噪声融合效果有限——说明融合不仅需要旋律对齐,还需要频谱对齐。
- BNMusic 生成的音乐频谱差异热力图最均匀——与噪声的能量分布最一致。
亮点与洞察¶
- 将噪声掩蔽问题转化为图像编辑问题是核心创新:mel-spectrogram 域中的 outpainting/inpainting 自然对应"围绕噪声构建音乐"的概念。
- 两步法(outpainting -> inpainting)的设计很巧妙:先让噪声的节奏信息扩散到音乐纹理中,再将音乐信息填充回噪声区域——类似"由简入繁"的作曲过程。
- 心理声学理论(SMR 阈值)指导的自适应放大确保了科学合理的掩蔽策略。
局限性 / 可改进方向¶
- 依赖 Riffusion 的生成质量:Riffusion 在复杂音乐类型上的表现有限。未来可尝试更强的音乐生成模型。
- 仅处理重复性噪声:对于突发性、非周期性噪声,节奏对齐策略可能失效。
- 实时性:当前处理需要约 5 秒,对实时场景(如地铁列车中动态噪声)还不够快。
- 仅考虑单声道:未处理空间音频和多声道场景。
相关工作与启发¶
- vs ANC: ANC 消除噪声(个人设备),BNMusic 融合噪声(群体场景)——两者互补而非替代。
- vs 传统声学掩蔽: 传统方法用固定声音掩蔽,BNMusic 生成与噪声对齐的个性化音乐,所需音量更低。
- vs AudioLDM/MusicGen: 这些模型从干净输入生成音乐,BNMusic 创新性地从噪声输入出发。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 全新任务定义(噪声融合),跨学科(心理声学+生成模型)
- 实验充分度: ⭐⭐⭐⭐ 客观+主观评估全面,消融完整
- 写作质量: ⭐⭐⭐⭐ 动机清晰,心理声学原理解释好
- 价值: ⭐⭐⭐⭐ 全新任务的开创性工作,但实际部署还有距离