BNMusic: Blending Environmental Noises into Personalized Music¶

会议: NeurIPS 2025
arXiv: 2506.10754
代码: https://d-fas.github.io/BNMusic_page/
领域: 音频生成
关键词: noise blending, auditory masking, music generation, spectrogram inpainting, psychoacoustics

一句话总结¶

提出 BNMusic，一个两阶段框架将环境噪声融合到个性化生成音乐中：第一阶段通过 mel-spectrogram 的 outpainting + inpainting 生成与噪声节奏对齐的音乐，第二阶段利用听觉掩蔽理论自适应放大音乐信号以降低噪声感知，无需额外训练，在 EPIC-SOUNDS 和 ESC-50 上显著优于 baseline。

研究背景与动机¶

领域现状：在公共环境中（地铁、电梯等），人们常受持续噪声困扰。主动噪声消除（ANC）有效但需个人设备，不适用于群体场景。传统声学掩蔽需要大音量且掩蔽音与噪声不对齐。
现有痛点：(1) ANC 限于个人使用，无法服务群体；(2) 传统掩蔽中掩蔽音与噪声的不对齐（如节拍不匹配）需要过高音量才能有效；(3) 现有音乐生成模型在噪声输入上表现差，因为它们是在干净音频上训练的。
核心矛盾：如何在合理音量下有效降低噪声感知？关键在于让掩蔽音（音乐）的节奏和频谱特征与噪声对齐。
本文要解决什么？ 给定环境噪声和用户文本提示，生成与噪声节奏和频谱对齐的音乐，使噪声融入音乐而不被感知。
切入角度：基于心理声学的听觉掩蔽理论——当音乐的频率-时间特征与噪声对齐时，只需较小的信噪比即可实现掩蔽。利用 mel-spectrogram 域的图像生成技术（inpainting/outpainting）来生成对齐的音乐。
核心 idea 一句话：将噪声的高能区域作为"画布"，用 spectrogram outpainting 扩展音乐模式，再用 inpainting 重建高能区域，最后自适应放大来增强掩蔽效果。

方法详解¶

整体框架¶

输入：噪声音频 + 文本提示。预处理：转换为 mel-spectrogram，创建高能区域掩膜。Stage 1：双步 outpainting + inpainting 生成对齐音乐的 mel-spectrogram。Stage 2：基于掩蔽阈值自适应放大。输出：可与噪声融合的音乐音频。

关键设计¶

Stage 1: 噪声对齐的音乐合成:
做什么：生成与噪声节奏和频谱对齐的音乐。
核心思路：(1) 预处理——将噪声 mel-spectrogram 的高能区域用二值掩膜标出。(2) Outpainting——保留高能噪声区域，生成周围的音乐内容，让核心噪声信息向外扩散到音乐纹理中。(3) Inpainting——反转掩膜，在高能区域内重建音乐内容，将之前扩散的音乐信息重新整合到核心区域。这使得最终音乐完整地继承了噪声的节奏特征。
设计动机：直接从噪声生成音乐效果差（模型未见过噪声输入）。两步法利用 outpainting 先建立音乐框架，再用 inpainting 填充核心区域——类似"从外到内"的构图策略。
Stage 2: 自适应放大:
做什么：在保持舒适音量的前提下最大化掩蔽效果。
核心思路：基于心理声学模型计算掩蔽阈值矩阵 \(\mathbf{T}_\text{Mask}\)（每个频率-时间 bin 上需要多大能量才能掩蔽噪声）。用梯度下降找最优放大因子 \(\lambda^*\)，优化目标在"最大化掩蔽覆盖率"和"最小化总音量"之间平衡：\(\lambda^* = \arg\min_\lambda \{\text{SUM}(\alpha \cdot \mathbf{S}'_\text{Music}) + \text{SUM}(\max[(\mathbf{T}_\text{Mask} - \mathbf{S}'_\text{Music}) \odot \mathbf{M}, 0])\}\)。
设计动机：由于 Stage 1 已经对齐了频谱特征，只需适度放大即可达到有效掩蔽，避免了传统掩蔽的"暴力提音量"策略。
利用现有模型无需额外训练:
做什么：基于 Riffusion（Stable Diffusion 的音乐微调版）实现，无需额外训练。
核心思路：将噪声 mel-spectrogram 作为图像编辑的输入，利用 Riffusion 的 inpainting/outpainting 能力。
设计动机：避免了收集"噪声-音乐配对"训练数据的成本，利用已有生成模型的泛化能力。

损失函数 / 训练策略¶

无训练。Stage 1 使用 Riffusion 的 LDM 推理（DDPM 去噪过程）。Stage 2 使用梯度下降优化放大因子 \(\lambda\)。总参数 \(\alpha=0.14\)。推理约 5 秒/样本（Nvidia 4090）。

实验关键数据¶

主实验¶

方法	FAD (EPIC)	KL (EPIC)	FAD (ESC-50)	KL (ESC-50)
Noise Only	34.17	-	27.39	-
Random Music	14.22	2.22	8.45	2.49
MusicGen	13.28	2.14	8.62	2.43
Riffusion A2A	20.06	2.90	12.62	3.26
BNMusic	12.86	2.03	8.09	2.38

消融实验¶

组件	FAD	KL
无任何处理	34.17	-
Outpainting only	改善	改善
+ Inpainting	进一步改善	进一步改善
+ 自适应放大	最优	最优

主观评测¶

方法	OVL (整体质量)	PER (噪声感知)
Random Music	2.93	2.63
MusicGen	2.97	2.68
Riffusion A2A	2.95	3.24
BNMusic	3.67	3.84

关键发现¶

BNMusic 在客观和主观评估上均全面领先，OVL +0.7，PER +0.6 (5分制)。
Riffusion A2A 噪声抑制好但音乐性差（FAD 最高=音乐质量最差），输出太像噪声。
每个组件都有贡献：outpainting 建立框架，inpainting 保证一致性，自适应放大增强掩蔽。
MusicGen 虽然有旋律感知能力但噪声融合效果有限——说明融合不仅需要旋律对齐，还需要频谱对齐。
BNMusic 生成的音乐频谱差异热力图最均匀——与噪声的能量分布最一致。

亮点与洞察¶

将噪声掩蔽问题转化为图像编辑问题是核心创新：mel-spectrogram 域中的 outpainting/inpainting 自然对应"围绕噪声构建音乐"的概念。
两步法（outpainting -> inpainting）的设计很巧妙：先让噪声的节奏信息扩散到音乐纹理中，再将音乐信息填充回噪声区域——类似"由简入繁"的作曲过程。
心理声学理论（SMR 阈值）指导的自适应放大确保了科学合理的掩蔽策略。

局限性 / 可改进方向¶

依赖 Riffusion 的生成质量：Riffusion 在复杂音乐类型上的表现有限。未来可尝试更强的音乐生成模型。
仅处理重复性噪声：对于突发性、非周期性噪声，节奏对齐策略可能失效。
实时性：当前处理需要约 5 秒，对实时场景（如地铁列车中动态噪声）还不够快。
仅考虑单声道：未处理空间音频和多声道场景。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 全新任务定义（噪声融合），跨学科（心理声学+生成模型）
实验充分度: ⭐⭐⭐⭐ 客观+主观评估全面，消融完整
写作质量: ⭐⭐⭐⭐ 动机清晰，心理声学原理解释好
价值: ⭐⭐⭐⭐ 全新任务的开创性工作，但实际部署还有距离