MACS: Multi-source Audio-to-Image Generation with Contextual Significance and Semantic Alignment¶

会议: AAAI 2026
arXiv: 2503.10287
代码: https://github.com/alxzzhou/MACS
领域: 图像生成
关键词: 音频到图像生成, 多源音频, 声源分离, 跨模态对齐, 扩散模型

一句话总结¶

提出 MACS，首个显式分离多源音频再生成图像的两阶段框架，通过弱监督声源分离 + CLAP 空间语义对齐（排序损失 + 对比损失）+ 解耦交叉注意力扩散生成，在多源、混合源和单源音频到图像生成任务上全面超越 SOTA。

研究背景与动机¶

音频到图像生成是一项将听觉信号转化为视觉表示的跨模态任务。近年来，借助扩散模型和多模态学习的成功，该领域取得显著进展。然而，现有方法存在根本性局限：

仅关注单源音频：现有方法（AudioToken、Sound2Scene、TempoTokens）都假设输入为单一音源

自然声景是多源混合的：现实世界中的声音通常由多个重叠音源组成（如吉他+说话声），直接将混合音频映射到图像会导致语义不连贯

缺乏多源基准：没有专门的多源音频到图像生成评估数据集

核心理念："先分离，再生成"（separation before generation）。与其直接从复杂混合音频生成图像，不如先将混合音频分解为独立音源，再综合各音源的语义生成图像。

这一策略面临三个主要挑战： - 如何鲁棒地分离重叠音源？ - 如何保持每个分离音源的语义一致性和相对重要性？ - 如何在扩散模型中有效整合多个音频条件？

方法详解¶

整体框架¶

MACS 是两阶段框架：

Stage 1（多源声分离 MSS）：将混合音频分解为多个子音频，通过重建损失训练，并利用 CLAP 空间的对比损失和排序损失实现语义对齐和上下文重要性建模
Stage 2（扩散生成）：使用解耦交叉注意力模块将多个音频嵌入映射到单个生成图像

关键设计¶

1. 多源声分离（MSS）¶

问题建模：给定混合音频 \(\mathbf{m}\)，使用 UNet \(\mathcal{U}_\theta\) 在频谱图上预测 \(M\) 个二值掩码。对幅度谱施加掩码后通过 iSTFT 还原波形：

\[\mathcal{G}_\theta(\mathbf{m}) = \mathcal{T}^{-1}\left(|\mathcal{T}(\mathbf{m})| \odot \mathcal{U}_\theta(|\mathcal{T}(\mathbf{m})|), \phi(\mathcal{T}(\mathbf{m}))\right)\]

无监督 MoM（Mixture of Mixtures）训练：

受 MixIT 启发，将两个混合音频 \(\bm{m}_1, \bm{m}_2\) 进一步混合为 \(\bm{m} = \bm{m}_1 + \bm{m}_2\)，分离出 \(M\) 个信号后，搜索最优二分匹配来最小化重建损失：

\[\mathcal{L}_{Rec} = \min_{(\Lambda_1, \Lambda_2) \in \Lambda} \left[\mathcal{L}_{SISDR}(\bm{m}_1, \sum_{i \in \Lambda_1}\bm{s}_i) + \mathcal{L}_{SISDR}(\bm{m}_2, \sum_{i \in \Lambda_2}\bm{s}_i)\right]\]

其中 SI-SDR 损失为：

\[\mathcal{L}_{SISDR}(\bm{m}_j, \hat{\bm{s}}_j) = -10\log_{10}\frac{\|\alpha\bm{m}_j\|_2^2}{\|\alpha\bm{m}_j - \hat{\bm{s}}_j\|_2^2}\]

关键优势：完全无条件，UNet 无需辅助输入，比传统有监督方法更适合真实世界音频。

2. 音频-文本语义对齐¶

利用预训练 CLAP 模型将分离音频和文本标签投射到共享嵌入空间，追求两个对齐目标：

排序损失（Ranking Loss）——建模上下文重要性：

\[\mathcal{L}_{Rank} = 1 - r_s(\mathbf{S}, \text{Sorted}(\mathbf{S}))\]

其中 \(r_s\) 是 Spearman 秩相关系数，\(\mathbf{S}\) 是分离音频嵌入与原始混合音频嵌入的余弦相似度向量。直觉是：与原始混合音频更相似的分离音频应该排在前面，因为它们包含更重要的语义信息。使用可微排序优化方法确保训练可行。

对比损失（Contrastive Loss）——实现语义匹配：

先通过软分配将音频嵌入与文本嵌入对齐：

\[\mathcal{E}'^T = \text{Softmax}\left(\frac{\langle\mathcal{E}^A\rangle\langle\mathcal{E}^T\rangle^\top}{\tau}\right)\mathcal{E}^T\]

然后用标准对比损失拉近匹配的音频-文本对，推开不匹配的对：

\[\mathcal{L}_{CL} = -\frac{1}{2M}\sum_{i=1}^{M}\log\frac{\exp(W_{ii})}{\sum_j \exp(W_{ij})} - \frac{1}{2M}\sum_{i=1}^{M}\log\frac{\exp(W_{ii})}{\sum_j \exp(W_{ji})}\]

Stage 1 总训练目标：

\[\mathcal{L}_1 = \lambda\mathcal{L}_{Rec} + \mu\mathcal{L}_{CL} + \gamma\mathcal{L}_{Rank}\]

3. 多源音频扩散生成¶

采用 解耦交叉注意力（Decoupled Cross-Attention） 模块整合多个音频嵌入：

对 \(M\) 个音频嵌入加上可训练位置编码后通过 MLP 投影：\(\mathcal{E}'^A = \text{MLP}(\mathcal{E}^A + \mathcal{E}^{Pos})\)
音频交叉注意力和文本交叉注意力独立计算后相加：\(\mathbf{H}' = \mathbf{H}_A + \mathbf{H}_T\)
音频分支使用新初始化的 \(\mathbf{W}_k, \mathbf{W}_v\)，共享 \(\mathbf{W}_q\)

损失函数 / 训练策略¶

Stage 2 训练：仅更新 \(\mathbf{W}_k, \mathbf{W}_v\)、位置编码和 MLP，基础扩散模型冻结：

\[\mathcal{L}_2 = \mathbb{E}_{\mathbf{z},\epsilon,t}\|\epsilon - \epsilon_\theta(\mathbf{z}_t, t, c)\|_2^2\]

训练设置：AdamW（\(\beta_1=0.9, \beta_2=0.999\)），batch size 16，单 RTX 4090D GPU。Stage 1 在 FSD50K 上预训练。

实验关键数据¶

主实验¶

多源音频（LLP-multi）：

方法	FID↓	CLIP-FID↓	KID↓	AIS↑	AIS-z↑	IIS↑	IIS-z↑
AudioToken	143.62	52.21	0.0431	0.0591	0.6201	0.4914	0.6799
Sound2Scene	105.14	33.79	0.0240	0.0711	0.8176	0.5545	0.7877
CoDi	116.67	44.96	0.0283	0.0747	1.1068	0.5179	1.4429
MACS	87.09	20.47	0.0157	0.0754	1.3038	0.6269	1.7231

单源音频（Landscape）：

方法	FID↓	CLIP-FID↓	KID↓	AIS↑	IIS↑	IIS-z↑
CoDi	158.31	39.97	0.0180	0.1094	0.6961	1.0942
ImageBind	207.93	41.49	0.0304	0.1189	0.6673	0.7681
MACS	147.23	26.91	0.0098	0.1015	0.7422	1.4805

MACS 在 21 个评估指标中的 17 个取得最佳，全面超越 SOTA。

消融实验¶

分离模型替换（LLP-multi）：

分离模型	FID↓	CLIP-FID↓	KID↓	AIS↑	IIS↑
MixIT (波形级)	98.73	28.42	0.0201	0.0688	0.5782
MACS (频谱级)	87.09	20.47	0.0157	0.0754	0.6269

MSS 的可适配性：将 MACS Stage 1 输出接入 AudioToken，AudioToken (w/MSS) 在所有数据集上均优于原始 AudioToken，说明 MSS 具有通用性。

预训练效果：在 FSD50K 上预训练后，分离质量（用分离音频-文本标签余弦相似度的标准差衡量）显著提升，且仅依赖预训练即可满足图像生成需求，不一定需要微调。

关键发现¶

"先分离再生成"策略有效：分离后的音频嵌入产生更局部化、语义对齐的注意力图
排序损失帮助识别重要音源：高排名的嵌入包含更重要的语义信息，前3个嵌入已编码大部分语义
音频可插值：在两个音频间线性插值可平滑过渡语义（如狗叫→汽车引擎）
分离提升单源质量：即使只有单源输入，分离过程也能降噪提质
Grad-CAM 可视化证明分离音频与图像区域存在清晰对应

亮点与洞察¶

首创性强：首个显式进行多源音频分离后再生成图像的工作
设计理念清晰："先分离再生成"简单有效，三个挑战（分离、对齐、生成）各有对应解决方案
CLAP 空间的巧妙利用：将预训练大模型的知识迁移到音频分离的语义监督中
排序损失的创新：用 Spearman 秩相关系数度量上下文重要性，解决了分离输出无序的问题
强大的通用性：MSS 模块可即插即用到其他音频到图像方法中

局限与展望¶

数据集规模有限（LLP-multi 仅 6595 帧），更大规模验证待完成
默认设置 \(M=6\) 个分离通道，对音源数量变化的鲁棒性分析不够
仅使用 Stable Diffusion v1.5 作为基座，未探索更强的扩散模型（如 SDXL、SD3）
CLAP 预训练模型的质量决定了语义对齐效果的上限
对于高度重叠且语义相近的音源（如多人说话），分离效果可能受限

评分¶

新颖性: ⭐⭐⭐⭐⭐（首个多源音频分离+图像生成框架）
实验充分度: ⭐⭐⭐⭐⭐（三类数据集 + 5折交叉验证 + 丰富消融和可视化）
写作质量: ⭐⭐⭐⭐（方法描述详尽，公式化完整）
价值: ⭐⭐⭐⭐（开辟多源音频-图像生成新方向）