Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention¶

会议: ICLR 2026 arXiv: 2509.23610 代码: 有（https://cslikai.cn/Dolphin）领域: 音频语音 关键词: 音视频语音分离, 离散唇语语义, 向量量化, 全局-局部注意力, 轻量化

一句话总结¶

提出 Dolphin 模型，通过双路径轻量视频编码器 DP-LipCoder 将唇部运动映射为离散语义 token，并设计全局-局部注意力（GLA）分离器，在三个基准上超越 SOTA 同时参数减少 50%+、MACs 降低 2.4×、GPU 推理加速 6×。

研究背景与动机¶

音视频语音分离（AVSS）利用视觉线索（唇部运动）从嘈杂混合音频中提取目标说话人语音。现有方法面临两个核心矛盾：

视觉编码器的路径依赖困境：大规模预训练视频骨干（如 3D ResNet-18）语义对齐强但计算成本极高；直接压缩导致语义表示能力严重下降；从零设计轻量编码器只能提取浅层像素级特征
分离器的效率-质量权衡：高性能方法（如 AV-Mossformer2）参数量巨大不适合部署；轻量方案（RTFSNet、AVLiT）依赖多次迭代，推理延迟依然很高

方法详解¶

整体框架¶

Dolphin 由五个核心组件构成： - 预训练视频编码器 DP-LipCoder：将唇部视频映射为重建特征 $\mathbf{V}_r$ 和语义特征 $\mathbf{V}_s$ - 音频编码器：1D 卷积层编码混合音频为 $\mathbf{X} \in \mathbb{R}^{N_a \times T_a}$ - 音视觉融合（AVF）模块：融合视觉与音频特征 - 分离器：基于 TDANet 的编码器-解码器架构，每层嵌入 GLA 块 - 音频解码器：1D 转置卷积输出时域分离信号

关键设计¶

1. DP-LipCoder：双路径轻量视频编码器¶

基于视频生成网络 MagVIT 架构设计双路径自编码器：

重建路径：提取压缩视觉特征 $\mathbf{V}_r$，保留说话人身份/表情等辅助线索。编码器由级联 3D 残差块 + 空间注意力块 + 交替空间下采样组成
语义路径：参数不共享的相同结构编码器，末端增加向量量化（VQ）模块，通过 AV-HuBERT 知识蒸馏将连续视频映射为音频对齐的离散语义 token $\mathbf{V}_s$
解码器：两路输出求和融合后重建视频

三个训练损失联合优化： $$\mathcal{L} = \mathcal{L}_{\text{commit}} + \mathcal{L}_{\text{distill}} + \mathcal{L}_{\text{recon}}$$

损失	作用
$\mathcal{L}_{\text{recon}}$	重建损失，驱动重建路径捕捉说话人视觉线索
$\mathcal{L}_{\text{distill}}$	AV-HuBERT 教师蒸馏，引导语义路径提取音频对齐特征
$\mathcal{L}_{\text{commit}}$	VQ 承诺损失，约束编码器输出与码本的一致性

AVSS 推理时仅运行编码器和 VQ 模块，不需解码器。相比 3D ResNet-18：参数减少 93%（0.78M vs 11.19M），MACs 降低 70%，SI-SNRi 仅下降 0.2 dB。

2. GLA 块：全局-局部注意力¶

GA 块（全局注意力）： - 粗粒度自注意力（CSA）：先下采样至 $T_a/2^Q$ 长度执行 MHSA，再上采样回原始长度 - 计算复杂度降至原始 $1/2^{2Q}$ - 后接 FFN（含 DWConv1D，kernel=3）

LA 块（局部注意力）： - 热扩散注意力（HDA）：基于热扩散方程的物理先验设计可学习多尺度滤波 - DCT 变换映射到频域，施加指数衰减滤波： $$\tilde{\mathbf{A}}(p) = \mathbf{A}(p) \cdot \exp(-\mathbf{k}_c (p\pi/T_a)^2)$$ - $\mathbf{k}_c \in \mathbb{R}^{N_a}$ 为可学习的通道自适应扩散系数 - IDCT 回时域 + 门控机制：$\breve{\mathbf{F}}_0 = \mathcal{P}(\hat{\mathbf{x}} \odot \text{SiLU}(\mathbf{z}))$ - 优势：不依赖有限卷积核感受野，参数量比大核 Conv1D 更少且更精细

3. 编码器-解码器分离器¶

编码器：$Q=4$ 层，每层 2 个 GLA 块 + 下采样，提取多尺度特征
所有尺度特征下采样至最低分辨率求和得全局表示 $\mathcal{G}$，经顶层 GA 块增强
解码器：$Q=4$ 层，每层 TDA 块（上采样）+ 3 个 GLA 块
直接输出目标说话人特征，不使用掩码乘法，避免传统掩码失真

4. 音视觉融合模块¶

采用 RTFSNet 的两种融合机制扩展至时域：视频引导门控融合 $\mathcal{F}_1$ + 注意力跨特征空间融合 $\mathcal{F}_2$，仅沿时间维度上采样视觉特征。

损失函数 / 训练策略¶

分离器优化目标：SI-SNR
Adam 优化器，lr=1e-3，验证损失平台 15 epoch 减半，停滞 30 epoch 早停
L2 梯度裁剪阈值 5，batch=48，8× RTX 5090 GPU
DP-LipCoder 参数冻结，仅训练分离网络

实验关键数据¶

主实验¶

表1：预训练视频编码器对比（LRS2）

方法	SI-SNRi(dB)↑	SDRi(dB)↑	PESQ↑	Params(MB)↓	MACs(G/s)↓
3D ResNet-18	17.0	17.1	3.30	11.19	7.95
AE	15.2	15.4	3.15	0.05	0.17
LipCoder	16.3	16.4	3.24	0.65	5.33
DP-LipCoder	16.8	16.9	3.29	0.78	2.38

表2：AVSS 方法 SOTA 对比（三个数据集）

方法	LRS2 SI-SNRi	LRS3 SI-SNRi	VoxCeleb2 SI-SNRi
IIANet	16.0	18.3	13.6
AV-Mossformer2	15.1	17.7	14.0
Dolphin	16.8	18.8	14.6

表3：效率对比（含视频编码器）

方法	Params(M)↓	MACs(G)↓	GPU延迟(ms)↓
IIANet	15.01	26.51	142.30
AV-Mossformer2	68.52	124.46	62.30
Dolphin	7.00	10.89	33.24

消融实验¶

GLA 组件消融（LRS2）：

GA	LA	SI-SNRi↑	Params(MB)↓
✗	✗	10.4	2.04
✓	✗	15.9	5.23
✗	✓	15.6	3.81
✓	✓	16.8	7.00

HDA 层 vs Conv1D：HDA 达到 16.9 dB SI-SNRi，优于 Conv1D 的 16.5 dB，参数更少（7.00M vs 7.57M）。

关键发现¶

VQ 离散编码比连续自编码器至少提升 1.0 dB SI-SNRi，VQ 模块贡献约 0.5 dB
DP-LipCoder 可泛化到其他 AVSS 模型：替换视频编码器后参数减少 10M+ 而性能仅轻微下降
单次迭代 + GLA 优于多次迭代方案
相比 SOTA IIANet：参数 -53%、MACs -59%、GPU 推理 4.3× faster

亮点与洞察¶

离散表示优越性：将视频流映射为"视觉词汇表"比连续表示更紧凑判别——对多模态系统设计有广泛启发
热扩散物理先验：将热方程引入局部注意力，仅学习缩放/门控参数即可精细建模局部特征，降低过拟合风险
双路径互补哲学：重建路径保留身份/表情辅助信息，语义路径提取音频对齐信息

局限性 / 可改进方向¶

依赖干净同步的唇部视频，对大角度头部姿态/遮挡/极端光照鲁棒性不足
极端资源受限设备部署仍有挑战，可探索量化/剪枝
离散 token 可能丢失细粒度发音线索，可探索层次码本或离散-连续混合表示
仅在英语数据集上验证，跨语言泛化待探索

评分¶

新颖性: ⭐⭐⭐⭐ — 双路径离散编码 + 热扩散局部注意力
技术深度: ⭐⭐⭐⭐ — 多模块精心设计有完善消融
实验充分度: ⭐⭐⭐⭐⭐ — 三数据集+多维度效率对比+消融
实用价值: ⭐⭐⭐⭐⭐ — 效率提升显著，有明确部署场景

损失	作用
\(\mathcal{L}_{\text{recon}}\)	重建损失，驱动重建路径捕捉说话人视觉线索
\(\mathcal{L}_{\text{distill}}\)	AV-HuBERT 教师蒸馏，引导语义路径提取音频对齐特征
\(\mathcal{L}_{\text{commit}}\)	VQ 承诺损失，约束编码器输出与码本的一致性