CPM: Class-Conditional Prompting Machine for Audio-Visual Segmentation¶

会议: ECCV 2024
arXiv: 2407.05358
代码: 无
领域: 音视频分割 / 多模态学习
关键词: Audio-Visual Segmentation, 类条件提示, 二部图匹配, Mask2Former, 对比学习

一句话总结¶

提出 CPM（Class-conditional Prompting Machine），通过结合类无关查询与基于 GMM 采样的类条件查询来增强 Mask2Former 在音视频分割中的二部图匹配稳定性和跨模态注意力效力，同时设计音频条件提示（ACP）、视觉条件提示（VCP）和提示对比学习（PCL）三个辅助任务，在 AVSBench 和 VPO 基准上达到 SOTA。

研究背景与动机¶

音视频分割（AVS）旨在根据音视频线索定位并分割发声物体，核心挑战在于有效的跨模态交互。

现有方法的问题：

基于像素分类的方法（TPAVI, CAVP 等）：使用早期融合 + FCN 解码器，因音频信息量低于视觉而低效利用音频；无法捕获实例级信息，导致帧间分割不一致
基于 Transformer 的方法（Mask2Former 类）：理论上更适合多模态，但面临两大训练困难：
跨注意力效力低：混合音源的全局音频特征语义不清，导致注意力学习困难
二部图匹配不稳定：类无关查询缺乏语义引导，匹配过程振荡

核心洞察：如果查询本身携带类别语义信息，既能稳定二部图匹配（因为查询已经知道要找什么），又能提供更清晰的跨模态注意力信号。

方法详解¶

整体框架¶

CPM 基于 Mask2Former 架构，训练时交替使用两条路径： - 类无关路径（推理时使用）：标准的类无关查询经 Transformer 解码器、匈牙利匹配到掩码预测 - CPM 路径（仅训练时）：从 GMM 采样的类条件查询经 ACP/VCP/PCL 三个辅助任务

关键设计 1：类条件分布建模（CCDM）¶

用高斯混合模型（GMM）对每个类别 c 的 mask embedding 分布进行建模：

p(q_tilde | c) = sum_m pi_cm * N(q_tilde; mu_cm, Sigma_cm)

训练过程中收集匈牙利匹配后的 mask embedding 及其对应标签
用 EM 算法优化 GMM 参数，动量更新保证稳定性
推理时用贝叶斯规则替代 Softmax 分类器

作用：从 GMM 采样类条件查询 z^k，这些查询天然携带类别语义，绕过二部图匹配中的不稳定性。

关键设计 2：音频条件提示（ACP）¶

受 mix-and-separate 思想启发，设计音频去噪任务：

取训练音频 a_i，混入非画面噪声 a_j：a_p = a_i + a_j
用类条件查询作为解码器输入，在混合音频特征图上检索语义相似的声源
预测声谱图掩码并与真实频谱比率对齐

L_ACP = || sigma(sum_k m_k^a) - a_i / a_p ||_2

作用：迫使类条件查询学会在频域中区分不同声源，增强音频模态的细粒度理解。

关键设计 3：视觉条件提示（VCP）¶

直接用采样的类条件查询替代类无关查询输入 Transformer 解码器： - 已知查询对应哪个类，无需二部图匹配 - 训练目标：正确分割对应图像区域 + 正确分类

L_VCP = L_ce + L_mask

作用：提供稳定的 per-class 训练信号，缓解类无关查询的匹配振荡。

关键设计 4：提示对比学习（PCL）¶

利用 ACP 产生的声谱图显著性掩码提取类级别音频特征，然后以该特征为锚点，与视觉特征图中同类像素（正样本）和异类像素（负样本）做 InfoNCE 对比学习。

突破：相比前人仅用全局音频做对比学习，CPM 首次实现类级别的音视频密集对比学习。

损失函数 / 训练策略¶

总损失：L = L_agn + lambda * L_CPM，其中 L_CPM = L_ACP + L_VCP + L_PCL

L_agn：标准 Mask2Former 损失（匈牙利匹配 + 交叉熵 + focal + dice）
CPM 分支仅在训练时激活；推理时只走类无关路径，不增加推理开销
GMM 通过动量更新保持训练稳定

实验关键数据¶

主实验：AVSBench 测试集（224x224, ResNet-50）¶

方法	类型	SS mIoU	MS mIoU	AVSS mIoU
TPAVI	Per-pixel	78.80	52.84	22.69
CAVP	Per-pixel	83.84	61.48	32.83
AVSegFormer	Transformer	80.67	56.17	27.12
COMBO	Transformer	85.90	60.55	35.30
CPM	Transformer	85.92	65.40	37.05

CPM 在多源场景（MS）和语义场景（AVSS）上优势更大：MS +2.83%, AVSS +1.79%。

原始分辨率 AVSBench-Semantics¶

方法	SS mIoU	MS mIoU	Total mIoU
CAVP	56.91	38.61	50.75
AVSegFormer*	50.52	31.40	45.80
CPM	61.71	43.11	57.25

CPM 提升显著：SS +4.80, MS +4.50, Total +6.50 mIoU。

消融实验¶

组件	贡献说明
CCDM（GMM 建模）	为 ACP/VCP/PCL 提供类条件查询的基础
ACP	增强音频模态的细粒度声源分离能力
VCP	绕过匈牙利匹配，提供稳定训练信号
PCL	密集的类级别音视频对比学习，增强跨模态对齐

关键发现¶

CPM 对多源场景增益最大：多声源时全局音频特征不可靠，类条件提示有效分解混合声源
ACP 的 mix-and-separate 策略促进音频理解：比直接用全局音频做查询更有效
VCP 稳定训练：类条件查询天然绕过匈牙利匹配的不稳定性
PCL 实现首个类级别音视频对比学习：突破了前人只能用全局音频做对比的限制

亮点与洞察¶

训练-推理解耦：CPM 分支仅参与训练，推理时零开销增加
GMM 生成式分类器：用生成式模型替代判别式 Softmax，更好地捕获类内变异性
三重辅助任务设计精妙：ACP/VCP/PCL 分别从音频、视觉、跨模态三个维度强化学习
可扩展性：CPM 可插入任何基于 Mask2Former 的分割框架

局限性 / 可改进方向¶

GMM 的 EM 更新增加训练复杂度，需维护外部记忆库
ACP 依赖非画面噪声数据集，数据获取有额外成本
未在更强的 backbone（如 Swin-L）上充分验证
声谱图掩码预测质量直接影响 PCL，但缺乏对这一中间结果质量的分析
未探索视频时序信息的利用

评分¶

新颖性: 4/5 - GMM + 类条件提示的组合在 AVS 中原创性强
实验充分度: 4/5 - 多基准评测全面，但消融细节可更充分
写作质量: 4/5 - 结构清晰，图 2 信息量大
价值: 4/5 - 为 Transformer-based AVS 的训练难题提供了系统性解决方案