Implicit Counterfactual Learning for Audio-Visual Segmentation¶

会议: ICCV 2025
arXiv: 2507.20740
代码: 无
领域: 语义分割 / 视听分割
关键词: 音视频分割、反事实学习、跨模态对齐、隐式文本桥接、对比学习

一句话总结¶

本文提出隐式反事实框架（ICF），通过多粒度隐式文本作为模态桥梁减少音视频表征差距，并利用语义反事实生成正交反事实样本缓解模态偏好问题，配合协作分布感知对比学习实现无偏的跨模态理解，在三个 AVS 数据集上达到 SOTA。

研究背景与动机¶

领域现状：音视频分割（Audio-Visual Segmentation, AVS）旨在根据音频线索在视频帧中分割出发声物体。这是一个新兴的跨模态理解任务，需要模型同时理解音频内容（什么在响）和视觉内容（哪里在响），并生成像素级的分割 mask。当前方法主要集中在如何更好地融合音频和视觉特征，如通过注意力机制、音频引导的 query 设计等。

现有痛点：现有 AVS 方法主要关注提高交互效率，但忽视了两个更深层的问题。第一，模态表征差异（modality gap）：音频和视觉是高度异质的模态（一个是频谱信号，一个是像素阵列），它们的表征空间天然不对齐，直接交互可能导致错误匹配——特别是在复杂场景中存在歧义视觉内容或多个音源干扰时。第二，模态偏好（modality preference）：视觉模态通常携带更丰富的信息，模型倾向于过度依赖视觉特征而边缘化音频特征。这导致音频线索在决策中的实际作用被削弱。

核心矛盾：AVS 任务本质上需要音频和视觉平等协作，但模态异质性导致的表征差距和模态偏好导致了"名义上的跨模态、实际上的单模态"问题——模型可能学到了用视觉特征"蒙混过关"而非真正利用音频信息。

本文目标：实现真正无偏的跨模态理解——既缩小音视频表征差距，又消除模态偏好，让音频线索在分割决策中发挥实质作用。

切入角度：作者提出两个核心策略。（1）用文本作为桥梁——文本既能描述视觉内容也能描述音频内容，天然适合作为共享的语义空间来对齐异质模态。（2）用反事实学习消除偏好——通过在潜空间生成反事实样本（如"有视觉但无意义音频"），迫使模型不能仅依赖单一模态做决策。

核心 idea：隐式反事实框架（ICF）= 多粒度隐式文本桥梁（MIT）+ 语义反事实（SC）+ 协作分布感知对比学习（CDCL），从表征对齐和偏好消除两个维度提升 AVS 性能。

方法详解¶

整体框架¶

ICF 以标准的 AVS backbone（视觉编码器+音频编码器+解码器）为基座，在其上添加三个核心模块。输入是视频帧序列和对应音频片段，输出是每帧的发声物体分割 mask。流程为：（1）视觉和音频编码器分别提取特征；（2）MIT 模块生成多粒度的隐式文本表示作为模态桥梁；（3）SC 模块在潜空间生成反事实样本；（4）CDCL 模块利用事实-反事实对比和跨模态对比来对齐表征、消除偏好；（5）融合后的特征送入解码器生成分割 mask。

关键设计¶

多粒度隐式文本（Multi-granularity Implicit Text, MIT）:
- 功能：构建模态共享语义空间，减少音频和视觉之间的表征差距
- 核心思路：利用预训练的视觉-语言模型（如 CLIP）的文本编码器，为视频内容生成三个粒度的隐式文本表示——视频级（描述整个视频的全局语义）、片段级（描述每个时间段的语义）和帧级（描述单帧的细粒度内容）。这些文本表示不是真实的自然语言句子，而是在 CLIP 文本编码器的输出空间中通过可学习 prompt 生成的"伪文本"嵌入。由于 CLIP 的文本空间天然与视觉空间对齐，这些隐式文本表示可以作为"翻译器"，将音频特征也映射到这个共享空间中，从而桥接异质模态。多粒度设计确保了从全局到局部都有语义对齐。
- 设计动机：直接对齐音频和视觉特征很困难（模态差异太大），但它们都可以与文本对齐（都有对应的语言描述）。利用文本作为桥梁是"曲线救国"的策略——以 CLIP 共享空间为基础，间接实现音视对齐。多粒度设计避免了单一粒度可能丢失局部或全局信息的问题。
语义反事实（Semantic Counterfactual, SC）:
- 功能：在潜空间生成反事实样本，消除模态偏好带来的决策偏差
- 核心思路：在联合表征空间中，对事实样本（真实的音-视配对）进行正交变换，生成反事实样本——即在保持一个模态特征不变的情况下，将另一个模态特征替换为语义上正交的表示。具体来说，对音频特征 \(a\) 在视觉特征 \(v\) 的方向上做正交投影和分解：\(a = a_{\parallel v} + a_{\perp v}\)，反事实音频特征为正交分量 \(a_{\perp v}\)。这样生成的反事实样本保留了原始模态的统计特性，但在语义上与配对模态无关。关键优势在于这种反事实生成是隐式的——在潜空间直接操作，不需要真正生成反事实图像或音频，避免了生成模型的复杂性和伪影。
- 设计动机：如果模型仅依赖视觉特征就能做出正确分割，那么无论音频是什么，预测结果都不会变——这就是模态偏好。通过将事实的与反事实的样本进行对比训练，迫使模型不能忽略音频信息。正交分解保证了反事实样本的多样性和语义合理性，优于简单的随机替换或 dropout。
协作分布感知对比学习（Collaborative Distribution-Aware Contrastive Learning, CDCL）:
- 功能：利用事实-反事实对和跨模态对来联合优化表征对齐和模态解偏
- 核心思路：CDCL 包含两种对比损失。（1）事实-反事实对比：将事实样本（正确的音-视配对）作为正样本，反事实样本（错误的配对）作为负样本，拉大两者在表征空间中的距离。这迫使模型学会区分"真正有关联的"和"语义无关的"跨模态配对。（2）跨模态内聚对比：在事实样本内部，拉近音频和视觉表示的距离，确保相关联的模态表示紧密聚合。两种对比损失协作——前者负责解偏（消除模态偏好），后者负责对齐（缩小模态差距）。"分布感知"体现在损失计算时考虑了样本的分布特性，对困难样本（音视关联不明显的复杂场景）给予更大权重。
- 设计动机：单纯的跨模态对齐不能解决偏好问题（模型可能把所有东西都映射到视觉主导的子空间），单纯的反事实对比不能解决对齐问题（模态间可能对齐后仍有gap）。两者协作才能同时实现"对齐"和"平衡"。

损失函数 / 训练策略¶

总损失由四部分组成：（1）BCE + Dice 分割损失——标准的像素级分割监督；（2）事实-反事实对比损失——InfoNCE 形式，以正确配对为正样本、反事实配对为负样本；（3）跨模态内聚对比损失——拉近相关联的音频和视觉表示；（4）分布感知权重——根据样本的对齐难度自适应调整对比损失的权重。训练策略：先在标准 AVS 设置下预热 backbone（冻结 CLIP），然后联合训练所有模块。

实验关键数据¶

主实验¶

在三个公开 AVS 数据集上的性能对比：

方法	AVSBench-S4 mIoU↑	AVSBench-MS3 mIoU↑	AVSS mIoU↑	参数量
AVSBench (baseline)	72.8	45.7	29.8	42M
AVSA	76.4	48.9	33.2	48M
CATR	78.2	50.3	35.4	53M
AVSegFormer	79.9	52.1	36.5	56M
GAVS	80.6	53.4	37.1	58M
ICF (Ours)	82.3	55.2	39.0	55M

不同设置下的详细对比（S4 为单声源，MS3 为多声源）：

方法	S4 mIoU↑	S4 F-score↑	MS3 mIoU↑	MS3 F-score↑
AVSegFormer	79.9	87.2	52.1	62.8
GAVS	80.6	87.9	53.4	64.1
ICF (Ours)	82.3	89.1	55.2	66.3

消融实验¶

配置	S4 mIoU↑	MS3 mIoU↑	说明
Baseline (无 ICF 模块)	78.5	50.8	标准 AVS backbone
+ MIT only	80.4	52.9	仅加隐式文本桥梁
+ SC only	79.8	52.1	仅加语义反事实
+ CDCL only	79.5	51.6	仅加对比学习
+ MIT + SC	81.2	53.8	桥梁+反事实
+ MIT + SC + CDCL (Full ICF)	82.3	55.2	完整方法
SC 替换为 random dropout	80.0	52.3	随机替代正交反事实
MIT 仅用帧级 (w/o 多粒度)	80.8	53.1	单粒度效果较弱

关键发现¶

MIT 贡献最大（+1.9/+2.1 mIoU），说明缩小模态差距是 AVS 性能提升的首要瓶颈。文本桥梁确实能有效减少音视频的异质性。
SC 和 CDCL 各有独立贡献，但与 MIT 组合时效果最佳——说明解偏（SC+CDCL）需要在良好的对齐（MIT）基础上才能充分发挥作用。
正交反事实显著优于随机 dropout（+2.3/+2.9 mIoU），证明了"语义正交"比"随机丢弃"是更有效的反事实构建方式。
多粒度文本表示优于单一帧级表示——全局语义（视频级）对理解整体音视对应关系很重要，局部信息（帧级）不足以覆盖。
在多声源场景 (MS3) 中改进更显著（+4.4 vs +3.8 mIoU），因为多声源场景的模态歧义更严重，反事实学习的解偏效果更明显。

亮点与洞察¶

隐式文本桥梁的设计避免了显式文本生成的误差：不需要真正生成自然语言描述（captioning 本身就有误差），而是直接在 CLIP 的嵌入空间中操作可学习的"伪文本"。这种隐式方式既利用了预训练模型的语义空间，又避免了文本生成的质量瓶颈。
正交反事实是一种优雅的偏差消除方式：比显式修改文本结构或属性的方法更自然，不依赖人工定义的反事实规则。在潜空间做正交分解是一个数学上干净的操作，可以迁移到其他需要消除模态偏好的多模态任务中（如视觉问答中的语言偏见）。
事实-反事实对比与跨模态对比的协作设计很有启发：将"对齐"和"解偏"作为两个正交目标，用两种对比损失分别优化，比用单一损失同时追求两个目标更有效。

局限与展望¶

依赖 CLIP 预训练模型的文本空间质量——如果 CLIP 的语义空间对某些音频类别覆盖不好（如复杂的环境声），MIT 的桥梁效果可能受限。
正交反事实假设模态间的依赖可以用线性正交分解捕获，对于高度非线性的音视语义关联可能过于简化。
实验数据集（AVSBench、AVSS）的规模和多样性有限，未在大规模真实场景（如自动驾驶、多媒体检索）中验证。
多粒度隐式文本的生成增加了额外的计算开销，对实时应用可能有影响。
未探索将反事实学习扩展到时序维度——当前的反事实是帧级或片段级的，未考虑跨时间步的因果关系。

评分¶

新颖性: ⭐⭐⭐⭐ 隐式文本桥梁+正交反事实的组合设计新颖，但反事实学习本身在视觉领域已有先例
实验充分度: ⭐⭐⭐⭐ 三个数据集测试，消融实验充分，但缺少更大规模数据的验证
写作质量: ⭐⭐⭐⭐ 结构完整，动机论述到位，但部分公式符号定义可以更清晰
价值: ⭐⭐⭐⭐ 为 AVS 引入了新的研究视角（模态偏好消除），正交反事实方法可迁移性强