AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer¶

会议: ICLR 2026
arXiv: 2603.15597
代码: 无
领域: 音频生成
关键词: 视频到音频, Foley合成, 参考音频控制, 音色迁移, 流匹配

一句话总结¶

提出 AC-Foley，一种参考音频引导的视频到音频合成框架，通过两阶段训练（声学特征学习+时序适应）和多模态条件流匹配实现了细粒度音色控制、音色迁移和零样本音效生成，在音频质量和声学保真度上显著优于现有方法。

研究背景与动机¶

领域现状：现有 V2A 方法主要通过文本提示+视觉信息合成音频，在语义层面实现音视频同步。
现有痛点：(a) 数据集粒度差距——训练标注将声学上不同的声音（如不同犬种的叫声）归为粗标签；(b) 文本描述局限——语言无法编码微声学特征（如"金属撞击声"无法区分锤击铁砧vs钢链坠落的时频特性）。这使得文本控制无法实现细粒度音效合成。
核心矛盾：Foley 创作者需要对同一视觉动作合成多种声学变体（如不同材质表面的脚步声），但文本无法精确描述音色差异，且训练数据缺乏这种细粒度标注。
本文要解决什么？ 用参考音频直接控制声学特性，绕过文本的语义歧义。
切入角度：用 VAE 编码参考音频保留完整声学签名（而非使用 CLAP 等仅提取语义信息的编码器），通过两阶段训练学习将参考音色适应到视频时序结构。
核心 idea 一句话：直接以音频信号作为控制条件替代文本，通过 VAE 保留音色特征并通过两阶段训练实现参考音频到视频时序的自适应迁移。

方法详解¶

整体框架¶

输入为无声视频+参考音频（+可选文本），多模态 Transformer 在条件流匹配框架下生成与视频同步且保留参考音色特征的音频。三个模态通过联合训练交互。

关键设计¶

多模态条件流匹配:
做什么：扩展条件流匹配到视频+音频+文本的三模态条件生成
核心思路：速度场 \(v_\theta(t, \mathcal{C}, x_t)\) 以多模态条件 \(\mathcal{C} = \{V, A, T\}\) 为引导。条件向量 \(\mathbf{c}\) 整合 CLIP 视觉/文本特征、Synchformer 同步特征、VAE 音频特征和时间步编码，通过 adaLN 调制 Transformer 输入
设计动机：流匹配比扩散模型推理更快，多模态联合训练让不同控制信号互补
音频控制模块:
做什么：用 VAE 编码参考音频保留完整声学特征
核心思路：使用预训练 VAE 编码器处理参考音频到潜空间（而非使用 CLAP），经过平均池化提取声学特征。CLAP 仅捕获语义级音频信息，VAE 保留频谱/音色的完整特征
设计动机：文本的问题是语义粒度太粗，那就直接以音频为条件——保留的是波形级的声学信息而非语义标签
两阶段训练策略:
做什么：分阶段学习声学特征提取和时序适应
核心思路：Stage 1（声学特征学习）用重叠的音视频片段训练，建立参考音频声学特征的提取能力；Stage 2（时序适应）用同一视频不同位置的不重叠音频作为条件，利用视频内音频的自相似性（如同一场景中的脚步声共享声学特性）迫使模型学习将参考特征对齐到视频时序
设计动机：Stage 2 的非重叠条件是关键——强迫模型学习"迁移音色而非复制波形"，解决简单覆盖导致的时序错位和音视频不协调

损失函数 / 训练策略¶

标准的条件流匹配训练目标（速度场回归），三种模态的条件以一定概率随机 dropout 实现推理时的灵活组合。

实验关键数据¶

主实验¶

方法	FD↓	KL↓	MCD↓	音色保真度
MMAudio (仅文本)	基线	基线	基线	无控制
CondFoley	中等	中等	中等	有限
AC-Foley (音频条件)	-20%	-28%	-22%	精确
AC-Foley (无音频条件)	竞争性	竞争性	竞争性	—

消融实验¶

配置	音频质量	音色保真度	说明
完整模型	最佳	最佳	两阶段训练+VAE编码
仅 Stage 1	中等	时序错位	缺乏时序适应能力
CLAP 替代 VAE	较差	丢失音色细节	CLAP 仅捕获语义
无音频条件	竞争性	—	退化为标准 V2A

关键发现¶

同一犬种视频配不同参考音频（吉娃娃叫声 vs 大型犬叫声）可生成完全不同的声音，验证了细粒度控制能力
音色迁移实验成功（如将驴叫迁移到狮子视频），展示了跨类别的声学特征迁移
零样本生成能力：用消音器枪声参考音频+枪击视频生成消音器效果，而文本提示完全无法描述
即使不提供参考音频，AC-Foley 仍与 SOTA V2A 方法竞争，说明多模态联合训练本身也提升了基础能力

亮点与洞察¶

绕过文本的精明选择：不是改进文本描述，而是直接用音频作为控制信号——"让声音描述声音"比"让文字描述声音"根本性地更有效
两阶段训练的巧妙设计：利用同一视频内音频的自相似性强迫模型学习"迁移"而非"复制"，是训练策略上的精巧设计
VAE vs CLAP 的选择：现有方法默认用 CLAP 编码音频，但 CLAP 是为语义检索设计的——保留音色需要更底层的波形特征，VAE 是正确选择

局限性 / 可改进方向¶

参考音频的获取本身需要创作者提供，增加了使用门槛
当参考音频与视频内容语义完全不匹配时，生成质量可能下降
两阶段训练增加了训练复杂性
对参考音频长度的灵活性可能受限于 VAE 的处理能力

评分¶

新颖性: ⭐⭐⭐⭐ 参考音频控制替代文本的思路直观但效果显著，两阶段训练设计巧妙
实验充分度: ⭐⭐⭐⭐ 细粒度控制、音色迁移、零样本生成三种应用全覆盖
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，应用案例生动直观
价值: ⭐⭐⭐⭐⭐ 为 Foley 创作实践提供了急需的细粒度控制工具