MultiFoley: Video-Guided Foley Sound Generation with Multimodal Controls¶

会议: CVPR 2025
arXiv: 2411.17698
代码: https://ificl.github.io/MultiFoley/ (有)
领域: 音频语音 / 生成模型
关键词: Foley音效生成, 视频到音频, 扩散模型, 多模态控制, 音视频同步

一句话总结¶

提出 MultiFoley，基于 Diffusion Transformer 的视频引导 Foley 音效生成系统，支持文本语义控制和参考音频风格控制，通过联合训练视频-音频和文本-音频数据集实现 48kHz 高质量音频生成，在人类评估中以 90% 胜率碾压现有方法。

研究背景与动机¶

领域现状：视频到音频（V2A）生成旨在为无声视频自动配音。现有方法（如 FoleyCrafter、Frieren、VAB）大多在 16kHz 低采样率下工作，且只接受视觉输入——无法通过文本指定想要的声音语义或通过参考音频指定音色风格。

现有痛点：三个关键问题：（1）音频质量低——16kHz 采样率丢失了大量高频信息，专业 Foley 工作流需要 48kHz；（2）控制性差——用户无法指定"脚踩在木板上"vs"脚踩在碎石上"的区别；（3）数据不匹配——高质量音效库（如 HQ-SFX）只有文本标注无视频，视频数据集（如 VGGSound）音质较差。

核心矛盾：需要同时实现视觉同步、语义可控和高音质，但这三者分别需要不同类型的数据和模型能力。

本文目标 统一视频引导、文本控制和参考音频迁移三种生成模式，在 48kHz 下实现高质量、可控的 Foley 音效生成。

切入角度：联合训练——将 VGGSound（视频-音频对）和 HQ-SFX（文本-音频对）混合训练，用质量标签区分音质分布，通过随机 dropout 各条件实现灵活的多模态推理。

核心 idea：DiT + 混合数据联合训练 + 多条件随机 dropout = 同时具备视觉同步、文本可控和高音质的 Foley 生成。

方法详解¶

整体框架¶

输入可包含：（1）无声查询视频 \(v_q\)（CAVP 编码，8FPS，64帧）；（2）文本提示 \(t_c\)（T5-base 编码）；（3）参考音频-视频对 \((a_c, v_c)\)。音频用 DAC-VAE 编码为 40Hz 隐变量（维度 64），12 层 DiT（332M 参数）在隐空间中进行扩散去噪，条件通过拼接（视频）和交叉注意力（文本）注入。

关键设计¶

混合数据联合训练 + 质量标签:
- 功能：同时学习视频-音频时序对齐和文本-音频语义对应
- 核心思路：VGGSound（168K 视频-音频样本）标记为"low quality"，HQ-SFX（400K 文本-音频对）标记为"high quality"。训练时 60:40 混合采样。推理时用"high quality"标签引导生成高质量音频分布
- 设计动机：解决了数据矛盾——VGGSound 提供视觉同步监督但音质差，HQ-SFX 提供高质量音频但无视频。质量标签让模型学会区分两种分布
多条件随机 Dropout:
- 功能：使模型能灵活处理任意条件组合
- 核心思路：训练时以一定概率随机丢弃文本/视频/音频条件（0.25 概率）。对音频隐变量也随机 mask 0-2 秒区间。这使得模型可以在推理时接受任意条件子集：仅视频、视频+文本、视频+参考音频等
- 设计动机：避免模型对某个特定条件过度依赖。消融显示去掉文本后语义指标骤降（CLAP 34.4%→19.4%），但同步性保持（0.80s→0.77s），说明条件解耦成功
带负提示的分类器无关引导（CFG）:
- 功能：通过正负文本提示精确控制生成语义
- 核心思路：推理时同时输入正面提示（想要的声音）和负面提示（不想要的声音），CFG 公式 \(\hat\epsilon = (\gamma+1) \cdot \epsilon_\theta(z_t, v_q, t_{\text{pos}}) - \gamma \cdot \epsilon_\theta(z_t, \varnothing_v, t_{\text{neg}})\)。负提示替代了简单的无条件噪声估计
- 设计动机：文本控制 Foley 时，排除不需要的声音类型（如"不要背景音乐"）比只指定想要的更有效

损失函数 / 训练策略¶

标准 LDM 去噪损失 \(\mathcal{L}_{\text{LDM}} = \mathbb{E}_{\epsilon, t}[\|\epsilon - \hat\epsilon\|_2^2]\)。对被 mask 的条件区域不计算损失。推理用 DDIM 100 步采样，CFG scale 3.0。先在混合数据上训练大模型，再在高音视频对应度的 VGGSound 子集上微调。

实验关键数据¶

主实验¶

VGGSound 测试集（8702 视频）上的 V2A 生成对比：

方法	ImageBind↑	CLAP↑	AV-Sync↓	采样率
FoleyCrafter	30.2%	25.3%	0.87s	16kHz
Frieren	26.1%	27.6%	0.87s	16kHz
MultiFoley	28.0%	34.4%	0.80s	48kHz
Oracle (DAC-VAE)	35.4%	28.2%	0.62s	48kHz

人类评估（400 组 vs FoleyCrafter）：

维度	MultiFoley 胜率
语义对齐	85.8%
同步性	94.5%
音频质量	86.5%
总体	90.2%

消融实验¶

配置	ImageBind	CLAP	AV-Sync
完整模型 (VT2A)	28.0%	34.4%	0.80s
无文本 (V2A)	22.4%	19.4%	0.77s
无子集微调	27.3%	33.8%	0.81s
Low quality 标签	-	34.4%	-
High quality 标签	-	34.9%	-

关键发现¶

文本条件对语义至关重要：去掉文本后 CLAP 从 34.4% 降到 19.4%（-15 %），但 AV-Sync 几乎不变（0.77 vs 0.80s），证明视频条件主导时序同步，文本主导语义内容
质量标签有效分离分布：High quality 标签提升 FAD@AUD（更接近专业音频分布）但降低 FAD@VGG（偏离网络视频分布），说明质量控制确实有效
CFG scale 3.0 是最优：过低（1.0）语义不清晰，过高（7.0）开始过拟合出伪影
音频-视觉扩展任务中条件叠加有效：Full conditions（视频+音频+视频条件+文本）CLAP 64.3% vs 视频 only 55.4%

亮点与洞察¶

混合数据训练的优雅解法：质量标签是解决"好数据无视频、有视频数据不好"矛盾的极简方案。推理时切换标签就能控制音质风格，无需复杂的数据筛选或多阶段训练
48kHz 全带宽生成：相比 16kHz 基线翻了 3 倍的频带宽度，对专业 Foley 制作有实际意义。DAC-VAE 的高效压缩（48kHz→40Hz 隐变量）是关键使能技术
条件解耦的自然实现：随机 dropout 不同条件使模型自动学到每个条件的独立作用——视频管同步、文本管语义、参考音频管风格——无需显式解耦设计

局限与展望¶

ImageBind 分数低于部分基线和 Oracle：28.0% vs FoleyCrafter 30.2% 和 Oracle 35.4%，说明跨模态语义对齐仍有提升空间
多事件处理困难：场景中有多个声音事件叠加时，模型难以区分各事件的时序关系
训练数据规模有限：仅用 VGGSound(168K) + HQ-SFX(400K)，更大规模高质量数据集可能显著提升性能
推理成本：100 步 DDIM 扩散采样 + 48kHz 音频解码的计算开销较大
潜在滥用风险：可以为任意视频生成极逼真的音效，存在 Deepfake 风险

评分¶

新颖性: ⭐⭐⭐⭐ 多模态控制的统一框架和质量标签机制是关键创新
实验充分度: ⭐⭐⭐⭐⭐ 自动指标+人类评估+多种消融+扩展任务，评估非常全面
写作质量: ⭐⭐⭐⭐ 方法描述清晰，但部分符号表示可简化
价值: ⭐⭐⭐⭐ 对专业 Foley 制作和视频后期制作有直接应用价值