Sounding that Object: Interactive Object-Aware Image to Audio Generation¶
会议: ICML 2025
arXiv: 2506.04214
代码: 项目主页
领域: 分割/多模态
关键词: 对象感知音频生成, 条件潜扩散模型, 分割掩码, 视觉-音频学习, 对象中心学习
一句话总结¶
提出一种交互式对象感知音频生成模型,通过多模态点积注意力在训练时学习图像区域与声音的关联,在测试时用 SAM 分割掩码替代注意力权重,允许用户通过点击选择图像中的视觉对象来生成对应的声音。
研究背景与动机¶
人类天然地将世界感知为由不同对象及其关联声音组成的集合——在繁忙的街道上,我们可以分辨出汽车喇叭声、脚步声和人群聊天声。然而,让计算模型复现这种对象级别的声音特异性仍然极具挑战性。
现有方法的三大痛点:
整体场景生成:基于视觉的方法(如 Im2Wav)分析整个视觉场景产生单一声轨,往往忽略细微但重要的声源(如背景中小飞机的声音),无法精确控制特定对象的声音;
多事件遗漏/绑定:基于文本的方法(如 AudioLDM)面对包含多个声音事件的提示时,要么遗漏某些声音(如脚步声),要么将共现事件错误绑定(如把人群噪音和风声混在一起),因为特征之间存在纠缠的相关性;
手动调权不实用:在扩散潜空间中手动重新加权单个声音事件虽可缓解上述问题,但劳动密集且对大规模应用不切实际。
根本矛盾:真实世界声音在复杂场景中往往是不平衡且混淆的,使得解耦不同声源非常困难。
本文方案:受人类解析复杂声景的方式启发,提出将声音生成锚定在用户选择的视觉对象上——模型不仅处理整体场景上下文,还能解耦各个声音事件。核心创新在于:(1)引入多模态点积注意力通过自监督学习声音-对象关联;(2)在测试时用 SAM 分割掩码替换注意力权重,实现精细的用户交互控制。
方法详解¶
整体框架¶
系统包含三个核心组件:
- 条件潜扩散模型:基于预训练的 AudioLDM,在潜空间中进行音频生成,使用 VAE 编码 mel 频谱图 + HiFi-GAN 声码器重建波形;
- 文本引导的视觉对象定位模型:通过 CLIP 图像编码器 + CLAP 文本编码器提取特征,再用缩放点积注意力融合文本与图像 patch 信息,学习声音-对象关联;
- 测试时分割掩码替换:训练完成后,将注意力权重替换为 SAM 生成的分割掩码,允许用户通过鼠标点击选择感兴趣的对象。
关键设计¶
1. 条件潜扩散模型(Conditional Latent Diffusion Model)¶
在潜空间中操作以提高计算效率。给定文本提示 \(\boldsymbol{t}_q\) 和噪声向量 \(\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})\),模型通过 \(N\) 步迭代去噪生成音频。训练目标为最小化预测噪声与真实噪声的差异:
其中 \(\boldsymbol{z}_0\) 是真实音频的潜表示,\(\boldsymbol{z}_n\) 是第 \(n\) 步的噪声潜变量。VAE 将 mel 频谱图 \(\boldsymbol{a} \in \mathbb{R}^{T \times F}\) 压缩为低维潜表示 \(\boldsymbol{z} \in \mathbb{R}^{T' \times F' \times d}\)(\(d=8\) 通道)。
设计动机:直接在 mel 频谱图空间操作计算开销大,潜空间操作能大幅提升效率并保留关键语义信息。
2. 缩放点积注意力融合(Scaled Dot-Product Attention Fusion)¶
这是本文最核心的设计——利用多模态注意力实现声音-对象的关联学习:
- 使用 CLAP 编码文本 \(\mathcal{E}_t(\boldsymbol{t}_q) \in \mathbb{R}^L\) 作为 Query
- 使用 CLIP 编码图像 patch \(\mathcal{E}_v(\boldsymbol{i}_q) \in \mathbb{R}^{P \times L}\) 作为 Key 和 Value
计算注意力权重:
其中 \(\boldsymbol{Q} = \mathcal{E}_t(\boldsymbol{t}_q)\boldsymbol{W}^Q\),\(\boldsymbol{K} = \mathcal{E}_v(\boldsymbol{i}_q)\boldsymbol{W}^K\),\(\boldsymbol{V} = \mathcal{E}_v(\boldsymbol{i}_q)\boldsymbol{W}^V\)。
设计动机:点积注意力能够将文本描述与图像中的对应区域进行匹配,高注意力权重自然落在与文本描述匹配的图像 patch 上——这在功能上等价于分割掩码。加性注意力由于与对比学习的 InfoNCE 损失不兼容(加法操作 vs 乘法内积),消融实验证实其完全失效。
3. 测试时分割掩码替换(Segmentation Mask Substitution)¶
训练完成后,将 softmax 注意力权重替换为 SAM 生成的归一化分割掩码 \(\boldsymbol{m}_q \in \mathbb{R}^P\)。掩码经重新缩放使其均值和方差与注意力权重匹配。
设计动机:论文从理论上证明了这种替换的合理性。关键洞察是:InfoNCE 对比损失可以视为 softmax 注意力权重的最大似然估计。因此训练好的编码器能将高注意力分配给与文本匹配的图像 patch、低注意力分配给无关 patch,这在功能上等价于分割掩码。
理论保证:定理 3.1 给出了测试误差上界:
各项误差(分割模型误差 \(\epsilon_{\text{sam}}\)、对比学习误差 \(\epsilon_{\text{contrast}}\)、模型拟合误差 \(\epsilon_f\))已被大规模预训练最小化,保证了替换的可靠性。
4. 其他设计细节¶
- 可学习位置编码:加入 key 和 value 嵌入中,提供空间信息帮助模型区分不同位置的对象;
- Classifier-Free Guidance (CFG):训练时以 10% 概率随机丢弃条件输入,测试时使用引导尺度 \(\lambda=2.0\);
- 单头注意力:实验发现多头注意力虽增强文本-音频对齐,但损害了分割掩码的可控性(每个头关注不同区域,降低了可解释性)。
损失函数 / 训练策略¶
- 主损失:标准的扩散模型噪声预测 MSE 损失(公式 1)
- 训练配置:AdamW 优化器,batch size 64,学习率 \(10^{-4}\),\(\beta_1=0.95\), \(\beta_2=0.999\),权重衰减 \(10^{-3}\),训练 300 epochs
- 数据处理:音频截断/补零至 10 秒,采样率 16kHz,512 点 DFT,帧长 64ms,帧移 10ms
- 扩散配置:线性噪声调度 \(N=1000\) 步(\(\beta_1=0.0015\) 到 \(\beta_N=0.0195\)),DDIM 采样 200 步
- 数据集:AudioSet 经预处理后取 748 小时视频用于训练,AudioCaps 用于评估
实验关键数据¶
主实验¶
在 AudioCaps 数据集上与 12 种基线方法的对比(客观指标):
| 方法 | ACC ↑ | FAD ↓ | KL ↓ | IS ↑ | AVC ↑ |
|---|---|---|---|---|---|
| Retrieve & Separate | 0.276 | 4.051 | 1.572 | 1.550 | 0.764 |
| AudioLDM 1 | 0.336 | 3.576 | 1.537 | 1.545 | 0.724 |
| AudioLDM 2 | 0.513 | 2.976 | 1.162 | 1.779 | 0.743 |
| Diff-Foley | 0.683 | 1.908 | 0.783 | 2.010 | 0.842 |
| FoleyCrafter | 0.732 | 1.760 | 0.665 | 2.007 | 0.811 |
| SSV2A | 0.806 | 1.265 | 0.525 | 2.100 | 0.893 |
| Ours | 0.859 | 1.271 | 0.517 | 2.102 | 0.891 |
主观评估(50 名参与者,1-5 评分):
| 方法 | OVL ↑ | RET ↑ | REI ↑ | REO ↑ |
|---|---|---|---|---|
| SSV2A | 3.22±0.02 | 3.50±0.03 | 3.35±0.02 | 3.48±0.06 |
| Ours | 3.31±0.04 | 3.62±0.05 | 3.48±0.04 | 3.74±0.07 |
消融实验¶
| 配置 | ACC ↑ | FAD ↓ | KL ↓ | IS ↑ | AVC ↑ | 说明 |
|---|---|---|---|---|---|---|
| (i) 冻结扩散权重 | 0.692 | 1.543 | 1.047 | 1.943 | 0.733 | 不微调导致性能下降 |
| (ii) 多头注意力 | 0.415 | 2.238 | 1.903 | 2.115 | 0.887 | AVC 高但 ACC 大幅下降 |
| (iii) 加性注意力 | 0.103 | 15.747 | 7.425 | 1.343 | 0.137 | 完全崩溃 |
| (iv) 文本-图像注意力(推理时) | 0.856 | 1.270 | 0.520 | 2.097 | 0.890 | 与掩码性能相当 |
| (v) 音频-图像注意力 | 0.634 | 1.761 | 1.232 | 1.731 | 0.692 | 性能显著下降 |
| (vi) 训练时用掩码 | 0.763 | 1.446 | 0.742 | 1.947 | 0.797 | 硬掩码损害性能 |
| 完整模型 | 0.859 | 1.271 | 0.517 | 2.102 | 0.891 | — |
交互满意度评估¶
| 方法 | 平均时间 ↓ | 尝试次数 ↓ | 满意度 ↑ |
|---|---|---|---|
| AudioLDM 1 | 7.34 min | 3.20 | 2.00±0.88 |
| AudioLDM 2 | 5.10 min | 2.40 | 2.80±1.04 |
| FoleyCrafter | 3.00 min | 2.80 | 3.00±1.96 |
| SSV2A | 2.95 min | 1.80 | 3.40±1.42 |
| Ours | 2.67 min | 1.60 | 3.60±0.68 |
关键发现¶
- 加性注意力完全失效:FAD 暴涨至 15.747,验证了理论分析——加法操作与 CLAP/CLIP 的对比损失不兼容,无法产生等价于分割掩码的注意力图;
- 单头 vs 多头注意力的权衡:多头注意力增强了文本-音频对齐(AVC 0.887),但严重损害了掩码可控性(ACC 仅 0.415),因为每个头关注不同区域,削弱了整体可解释性;
- 软注意力优于硬掩码训练:在训练时使用分割掩码(配置 vi)反而降低性能。原因是硬掩码对整个对象区域施加了过于刚性的先验,而声音通常只从对象的特定部分发出(如狗的头部而非尾巴);
- 文本-图像注意力与分割掩码等效:配置 (iv) 与完整模型性能几乎一致,从实验上验证了理论分析的正确性;
- 音频-图像注意力不如文本-图像:CLAP 模型在表示重叠音频时存在固有局限,引入噪声削弱了音频-视觉关联。
亮点与洞察¶
- 训练-测试范式转换的优雅设计:训练时用点积注意力(无需分割标注),测试时无缝替换为分割掩码,既降低了训练数据需求,又提供了精细的用户控制能力;
- 理论分析的深度:从对比学习损失(InfoNCE)与 softmax 注意力的等价关系出发,严格证明了注意力权重可由分割掩码替代,这在音频生成领域是罕见的理论贡献;
- 多对象交互的自然融合:选择多个对象时,模型会动态考虑上下文自然融合声音(如大面积车辆的警笛声会压过环境音),而非简单叠加独立音频片段;
- 视觉纹理变化适应:模型能根据视觉纹理变化生成不同声景(如晴天→雨天、水面→草地),展示了对视觉语义的深层理解;
- 对象交互感知:能捕捉对象间的交互(如棍子拍打水面产生水花声),而非生成通用的水流声。
局限与展望¶
- 静态图像限制:依赖静态图像难以产生与动态事件同步的非稳态音频(如撞击声),无法处理需要时序信息的声音事件;
- 同类对象声音歧义:对相似对象缺乏精确的声音类型控制(如汽车可能生成警笛声或引擎声),需引入额外的语义约束;
- 数据集限制:训练数据来自 AudioSet(748 小时),音频-视觉对应关系的质量依赖于预处理过滤,可能存在噪声;
- 可扩展至视频:自然的拓展方向是将方法扩展到视频输入,生成时间对齐的对象级声音;
- 更细粒度的控制:当前方法控制的是"哪些对象发声",未来可进一步控制声音的具体属性(如音量、音调、节奏)。
相关工作与启发¶
- 对象中心学习 (Greff et al., 2019; Locatello et al., 2020):将视觉场景分解为离散对象表示,为本文的对象级音频生成提供了范式基础
- 音频-视觉分离 (Zhao et al., 2018; Afouras et al., 2020):利用视觉对象与音频的对应关系进行声源分离,启发了本文的声音-对象关联学习
- SSV2A (Guo et al., 2024):并发工作,使用外部目标检测器的边界框生成多声源音频;本文不需要训练时的显式分割标注,更加优雅
- SAM (Kirillov et al., 2023):通过文本提示或点击获取分割掩码,为本文的测试时交互提供了界面
- CLAP & CLIP 对齐:利用对比预训练的文本-图像/音频对齐空间,是本文理论分析(注意力≈分割掩码)的关键基础
评分¶
- 新颖性: ⭐⭐⭐⭐ 训练时用注意力、测试时用分割掩码的范式转换设计新颖,但条件扩散模型框架本身是成熟技术
- 实验充分度: ⭐⭐⭐⭐⭐ 12 种基线对比 + 6 组消融 + 主观评估(50人) + 交互满意度 + 跨数据集泛化 + 可视化分析,非常全面
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,理论分析与实验互相佐证,图示直观;但部分理论推导符号较重
- 价值: ⭐⭐⭐⭐ 为可控音频生成提供了新的交互范式,对多模态生成和音视频学习领域有启发价值
Sounding that Object: Interactive Object-Aware Image to Audio Generation¶
- 会议: ICML 2025
- arXiv: 2506.04214
- 代码: 项目主页
- 领域: 分割
- 关键词: 音频生成, 对象感知, 分割掩码, 条件扩散模型, 视觉-音频学习
一句话总结¶
提出一种交互式对象感知音频生成模型,通过多模态点积注意力学习图像区域与声音的关联,在测试时用分割掩码替代注意力权重,允许用户通过选择图像中的视觉对象来生成对应的声音。
研究背景与动机¶
现有音频生成方法面临三个核心挑战:
- 整体场景生成:基于视觉的方法(如 Im2Wav)分析整个场景产生单一声轨,无法精确控制单个声源
- 多事件遗漏/绑定:基于文本的方法(如 AudioLDM)在提示包含多个事件时,要么遗漏细微声音(如脚步声),要么将共现事件绑定在一起
- 手动调权不实用:在扩散潜空间中手动重新加权单个声音事件虽可缓解问题,但对大规模应用不切实际
根本原因在于真实世界声音在复杂场景中通常不平衡且混淆,难以解耦不同声源。本文的核心思想是:将声音生成锚定在用户选择的视觉对象上,利用对象中心学习实现声音-对象的细粒度关联。
方法详解¶
整体框架¶
- 条件潜扩散模型(基于 AudioLDM)生成音频
- 文本引导的视觉对象定位模型学习声音-对象关联
- 测试时用 SAM 分割掩码替代注意力权重实现交互控制
关键设计¶
条件潜扩散模型:
采用预训练 VAE 将梅尔频谱图压缩到潜空间 \(\mathbf{z} \in \mathbb{R}^{T' \times F' \times d}\),使用 U-Net 进行去噪,DDIM 采样 200 步。训练目标:
多模态点积注意力:
将文本嵌入(CLAP)作为 Query,图像 patch 嵌入(CLIP)作为 Key/Value:
关键特性:使用单头注意力而非多头——多头注意力虽提高文本-音频对齐,但降低了基于分割掩码的可控性,因为各头关注不同区域导致可解释性下降。
测试时分割掩码替代:
训练完成后,用 SAM 生成的分割掩码 \(\mathbf{m}_q \in \mathbb{R}^P\) 替代 softmax 注意力权重,归一化使其均值和方差与注意力权重匹配。用户通过点击选择对象即可生成对应声音。
理论保证(Theorem 3.1)¶
作者证明测试时误差可被上界约束:
直觉:InfoNCE 对比损失使编码器学习将高注意力权重分配给匹配文本的图像 patch,低权重分配给无关 patch——这在功能上等价于分割掩码。因此训练时的注意力权重和测试时的分割掩码之间存在平滑的泛化桥梁。
实验关键数据¶
主实验:AudioCaps 基准¶
| 方法 | ACC↑ | FAD↓ | KL↓ | IS↑ | AVC↑ | REO↑ |
|---|---|---|---|---|---|---|
| FoleyCrafter | 0.732 | 1.760 | 0.665 | 2.007 | 0.811 | 2.60 |
| SSV2A | 0.806 | 1.265 | 0.525 | 2.100 | 0.893 | 3.48 |
| Ours | 0.859 | 1.271 | 0.517 | 2.102 | 0.891 | 3.74 |
消融实验¶
| 变体 | ACC↑ | FAD↓ | KL↓ | AVC↑ |
|---|---|---|---|---|
| (i) 冻结扩散权重 | 0.692 | 1.543 | 1.047 | 0.733 |
| (ii) 多头注意力 | 0.415 | 2.238 | 1.903 | 0.887 |
| (iii) 加性注意力 | 0.103 | 15.747 | 7.425 | 0.137 |
| (iv) 文本-图像注意力(推理) | 0.856 | 1.270 | 0.520 | 0.890 |
| (vi) 掩码训练 | 0.763 | 1.446 | 0.742 | 0.797 |
| 完整模型 | 0.859 | 1.271 | 0.517 | 0.891 |
关键发现¶
- 加性注意力完全失败(ACC 仅 0.103),验证了理论分析:加法操作与 CLIP/CLAP 的对比损失和 SAM 掩码不兼容
- 训练时使用硬掩码反而更差:硬掩码施加过于刚性的先验(声音通常从对象特定部位发出,如狗的头而非尾巴),而软注意力直接逼近真实分布
- 文本-图像注意力与分割掩码在测试时性能相当(ACC 0.856 vs 0.859),经验验证了 Theorem 3.1
- 交互满意度研究:本方法用时最短(2.67 min),尝试次数最少(1.60),满意度最高(3.60/5)
亮点与洞察¶
- 训练-推理解耦设计:训练时使用文本-图像注意力自监督学习声音-对象关联(无需分割标注),推理时无缝切换为分割掩码实现交互控制,设计巧妙
- 理论-实验一致:Theorem 3.1 提供了训练时注意力与测试时掩码可替换的理论保证,消融实验(加性注意力失败、点积注意力≈掩码)完美验证了理论预测
- 多对象组合能力:选择多个对象时,模型不是简单叠加各对象声音,而是根据场景上下文动态调整音量平衡,产生自然的混合音效
局限性¶
- 静态图像局限:依赖静态图像难以生成与动态事件同步的非平稳音频(如撞击声)
- 声音类型歧义:对外观相似的对象无法精确控制声音类型(如同一辆车可能生成警笛或引擎声)
- 潜在滥用风险:可被用于生成误导性视频内容
- 数据集受限:仅在 AudioSet 子集上训练,泛化到其他领域未充分验证
相关工作与启发¶
- AudioLDM (Liu et al., 2023):本文基础框架,条件潜扩散模型的开创工作
- SSV2A (Guo et al., 2024):最强竞争方法,使用外部目标检测器的边界框实现多声源生成,但训练时需要显式检测
- SAM (Kirillov et al., 2023):提供测试时分割掩码,实现用户交互
- CLIP/CLAP (Radford et al./Elizalde et al.):提供对齐的视觉/文本/音频嵌入空间,是本文方法的对比学习基础
评分¶
- 新颖性: ⭐⭐⭐⭐ — 注意力→分割掩码的训练-推理解耦思路新颖,理论分析有深度
- 实验充分度: ⭐⭐⭐⭐ — 客观+主观评估、完整消融、交互满意度研究、跨场景可视化
- 写作质量: ⭐⭐⭐⭐ — 方法部分推导清晰,理论证明完整
- 价值: ⭐⭐⭐⭐ — 对交互式音频生成提供了新范式,分割掩码替代注意力的思路可推广
相关论文¶
- [CVPR 2025] ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object
- [CVPR 2025] A Distractor-Aware Memory for Visual Object Tracking with SAM2
- [NeurIPS 2025] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
- [ICML 2025] unMORE: Unsupervised Multi-Object Segmentation via Center-Boundary Reasoning
- [ICLR 2026] VIRTUE: Visual-Interactive Text-Image Universal Embedder