Cinematic Audio Source Separation Using Visual Cues¶

会议: CVPR 2026
arXiv: 2603.26113
代码: 项目页 (有)
领域: Image Generation (音视频多模态)
关键词: 影视音频源分离, 音视频学习, 条件流匹配, 合成训练数据, 多源分离

一句话总结¶

提出首个音视频影视音频源分离（AV-CASS）框架，利用面部和场景双视频流的视觉线索，通过条件流匹配进行生成式三路音频分离（语音/音效/音乐），仅在合成数据上训练即可泛化到真实电影。

领域现状：影视音频源分离（CASS）随 DnR 数据集的引入被形式化为语音/音效/音乐三路分离问题。BandIt 等方法推进了音频端性能，但所有现有方法都忽略了电影的多模态本质。

现有痛点：(a) CASS 方法均为纯音频，忽略了视觉线索（唇动对应语音、场景动作对应音效）；(b) 缺少同时具有源分离音轨和时间对齐视频的数据集；(c) 预测式分离模型容易产生频谱空洞伪影。

核心矛盾：视觉信息显然有助于音频分离，但获取真实电影的独立音轨几乎不可能。

本文目标：在无法获取真实隔离音轨的情况下，利用可独立获取的野外音视频数据训练有效的 AV-CASS 模型。

切入角度：合成训练数据管线（面部视频→语音、场景视频→音效、纯音乐）+ 生成式流匹配分离模型。

核心 idea：训练用双视频流（面部+场景），推理时从真实电影单视频中提取双流，零样本泛化。

Vision Extractor（面部编码器+场景编码器→融合视觉条件 \(\mathbf{c}^V\)）+ Flow Matching 生成模型（从噪声到三路频谱图，以混合音频 \(\mathbf{s}^A\) 和 \(\mathbf{c}^V\) 为条件）。

合成训练数据管线：
- 语音(DX)：LRS3 数据集（唇同步视频+语音），152K 片段
- 音效(FX)：VGGSound（日常事件视频+音频），经 SMAD 过滤去除含语音/音乐片段，~62K
- 音乐(MX)：FMA（纯音乐），经过滤 ~49K
- 混合：\(\mathbf{a}^A = \mathbf{a}^{DX} + \mathbf{a}^{FX} + \mathbf{a}^{MX}\) 设计动机：真实电影源分离数据不可得，但各单源的音视频数据丰富。合成混合保留完整 GT 且可控。
双流视觉编码器与融合：面部编码器（AVDiffuSS）提取唇同步特征，场景编码器（CAVP）提取时间-语义对齐特征。两者冻结，投影后沿时间轴拼接：\(\mathbf{c}^V \in \mathbb{R}^{(T_f+T_s) \times C'}\)，通过 U-Net cross-attention 注入。设计动机：面部流≈语音线索，场景流≈音效线索，互补覆盖 CASS 中有视觉关联的两路音源。
条件流匹配多源分离： \(\mathcal{L} = \mathbb{E}_{t, \pi_1, \pi_0} \|\mathbf{u}_\theta(\mathbf{x}_t, t | \mathbf{c}) - (\mathbf{x}_1 - \mathbf{x}_0)\|_2^2\) logit-normal 时间步采样，三路频谱图沿通道维拼接。设计动机：流匹配比扩散推理更快，比 masking 方法产生更自然音频。

方法	真实电影MOS↑	AVDnR FAD↓	AVDnR PESQ↑	AVDnR WPR↓
MRX	2.55	3.47	1.89	14.91
BandIt	3.78	2.15	2.15	4.65
DAVIS-Flow (AV)	-	5.94	1.96	12.14
AV-CASS	4.13	0.84	2.26	1.84