FLAC: Few-shot Acoustic Synthesis with Multimodal Flow Matching¶

日期: 2026-03-19
arXiv: 2603.19176
代码: 项目页面
领域: 图像生成 / 语音音频
关键词: 房间脉冲响应, 少样本声学合成, Flow Matching, 多模态条件生成, 声学-几何对齐

一句话总结¶

提出 FLAC，首个将 Flow Matching 应用于少样本房间脉冲响应（RIR）合成的生成模型，仅用 1 条录音+深度图即可在新房间生成空间一致的 RIR，超越需要 8 条录音的 SOTA 方法，同时引入 AGREE 声学-几何联合嵌入用于场景一致性评估。

领域现状: 沉浸式虚拟环境需要场景一致的空间音频。房间脉冲响应（RIR）描述声音在空间中的传播，依赖几何、材料和位置的复杂交互。神经声学场方法可以渲染连续位置的 RIR，但每个房间需要大量录音和独立训练。
现有痛点: (a) 少样本方法（xRIR 等）仍需 8-20 条录音且是确定性的——无法捕捉稀疏观测下的声学不确定性；(b) 同一几何结构不同材料（地毯 vs 木地板）会产生完全不同的声学，确定性模型无法建模这种歧义。
核心矛盾: 少样本意味着信息不完整——存在多个同样合理的 RIR——但现有方法只给出一个确定性预测。
核心 idea: 将少样本 RIR 合成建模为条件概率生成任务——Flow Matching 生成 RIR 分布而非单点预测，条件为空间、几何和声学线索的多模态上下文。

Latent Flow Matching for RIR:
- 做什么：在 VAE latent 空间做 Rectified Flow 生成 RIR
- 核心思路：线性插值 \(\mathbf{z}_t = (1-t)\mathbf{z}_0 + t\epsilon\)，训练 DiT 预测速度场 \(\mathbf{v}_t = \epsilon - \mathbf{z}_0\)
- 设计动机：Flow Matching 的直线路径比扩散模型更高效（推理步数少）；概率生成自然建模不确定性
- 噪声采样偏向中等噪声 (t≈0.7-0.8)，用 logit-normal 分布
多模态条件:
- 声学条件: K 条参考 RIR（默认 K=1），经 VAE 编码
- 空间条件: 声源/接收器位姿（3D 坐标），通过 AdaLN 注入 timestep
- 几何条件: 接收器位置的全景深度图，经 DINOv2 编码
- 三种模态通过交叉注意力融合
- 设计动机：声学提供已知的房间声学特性，几何提供结构信息（墙/天花板/地板），空间提供源-听者关系
AGREE: 声学-几何联合嵌入:
- 做什么：对齐 RIR 和场景几何在共享空间中——CLIP 风格
- 应用：(a) 零样本跨模态检索（给 RIR 找房间 / 给房间找 RIR）；(b) 生成质量评估——生成 RIR 与场景几何的一致性
- 设计动机：标准感知指标只衡量声学质量，不衡量场景一致性。AGREE 通过检索和分布距离提供几何一致性的评估

用 1 条录音超越用 8 条的 SOTA——8× 更少数据。

指标	说明
检索准确率	RIR↔房间检索 top-k 命中率
FGD (分布距离)	生成 RIR 与真实 RIR 在 AGREE 空间的分布距离

首次将 Flow Matching 用于 RIR 合成：声学合成领域的范式突破——从确定性回归到概率生成。
1-shot 胜 8-shot：概率建模的不确定性处理使模型在极端稀疏数据下仍能鲁棒生成——确定性方法在数据不足时硬拟合一个点预测，概率方法生成合理分布。
AGREE 作为声学-几何评估工具：不仅是评估指标，还可用于零样本声学检索——"给我一个听起来像大教堂的房间"。
跨领域的 Flow Matching 范式迁移：从图像/视频到声学，验证了 Flow Matching 的通用性。