Implicit Counterfactual Learning for Audio-Visual Segmentation¶
会议: ICCV 2025
arXiv: 2507.20740
代码: 无
领域: 语义分割 / 视听分割
关键词: 音视频分割、反事实学习、跨模态对齐、隐式文本桥接、对比学习
一句话总结¶
本文提出隐式反事实框架(ICF),通过多粒度隐式文本作为模态桥梁减少音视频表征差距,并利用语义反事实生成正交反事实样本缓解模态偏好问题,配合协作分布感知对比学习实现无偏的跨模态理解,在三个 AVS 数据集上达到 SOTA。
研究背景与动机¶
领域现状:音视频分割(Audio-Visual Segmentation, AVS)旨在根据音频线索在视频帧中分割出发声物体。这是一个新兴的跨模态理解任务,需要模型同时理解音频内容(什么在响)和视觉内容(哪里在响),并生成像素级的分割 mask。当前方法主要集中在如何更好地融合音频和视觉特征,如通过注意力机制、音频引导的 query 设计等。
现有痛点:现有 AVS 方法主要关注提高交互效率,但忽视了两个更深层的问题。第一,模态表征差异(modality gap):音频和视觉是高度异质的模态(一个是频谱信号,一个是像素阵列),它们的表征空间天然不对齐,直接交互可能导致错误匹配——特别是在复杂场景中存在歧义视觉内容或多个音源干扰时。第二,模态偏好(modality preference):视觉模态通常携带更丰富的信息,模型倾向于过度依赖视觉特征而边缘化音频特征。这导致音频线索在决策中的实际作用被削弱。
核心矛盾:AVS 任务本质上需要音频和视觉平等协作,但模态异质性导致的表征差距和模态偏好导致了"名义上的跨模态、实际上的单模态"问题——模型可能学到了用视觉特征"蒙混过关"而非真正利用音频信息。
本文目标:实现真正无偏的跨模态理解——既缩小音视频表征差距,又消除模态偏好,让音频线索在分割决策中发挥实质作用。
切入角度:作者提出两个核心策略。(1)用文本作为桥梁——文本既能描述视觉内容也能描述音频内容,天然适合作为共享的语义空间来对齐异质模态。(2)用反事实学习消除偏好——通过在潜空间生成反事实样本(如"有视觉但无意义音频"),迫使模型不能仅依赖单一模态做决策。
核心 idea:隐式反事实框架(ICF)= 多粒度隐式文本桥梁(MIT)+ 语义反事实(SC)+ 协作分布感知对比学习(CDCL),从表征对齐和偏好消除两个维度提升 AVS 性能。
方法详解¶
整体框架¶
ICF 以标准的 AVS backbone(视觉编码器+音频编码器+解码器)为基座,在其上添加三个核心模块。输入是视频帧序列和对应音频片段,输出是每帧的发声物体分割 mask。流程为:(1)视觉和音频编码器分别提取特征;(2)MIT 模块生成多粒度的隐式文本表示作为模态桥梁;(3)SC 模块在潜空间生成反事实样本;(4)CDCL 模块利用事实-反事实对比和跨模态对比来对齐表征、消除偏好;(5)融合后的特征送入解码器生成分割 mask。
关键设计¶
-
多粒度隐式文本(Multi-granularity Implicit Text, MIT):
- 功能:构建模态共享语义空间,减少音频和视觉之间的表征差距
- 核心思路:利用预训练的视觉-语言模型(如 CLIP)的文本编码器,为视频内容生成三个粒度的隐式文本表示——视频级(描述整个视频的全局语义)、片段级(描述每个时间段的语义)和帧级(描述单帧的细粒度内容)。这些文本表示不是真实的自然语言句子,而是在 CLIP 文本编码器的输出空间中通过可学习 prompt 生成的"伪文本"嵌入。由于 CLIP 的文本空间天然与视觉空间对齐,这些隐式文本表示可以作为"翻译器",将音频特征也映射到这个共享空间中,从而桥接异质模态。多粒度设计确保了从全局到局部都有语义对齐。
- 设计动机:直接对齐音频和视觉特征很困难(模态差异太大),但它们都可以与文本对齐(都有对应的语言描述)。利用文本作为桥梁是"曲线救国"的策略——以 CLIP 共享空间为基础,间接实现音视对齐。多粒度设计避免了单一粒度可能丢失局部或全局信息的问题。
-
语义反事实(Semantic Counterfactual, SC):
- 功能:在潜空间生成反事实样本,消除模态偏好带来的决策偏差
- 核心思路:在联合表征空间中,对事实样本(真实的音-视配对)进行正交变换,生成反事实样本——即在保持一个模态特征不变的情况下,将另一个模态特征替换为语义上正交的表示。具体来说,对音频特征 \(a\) 在视觉特征 \(v\) 的方向上做正交投影和分解:\(a = a_{\parallel v} + a_{\perp v}\),反事实音频特征为正交分量 \(a_{\perp v}\)。这样生成的反事实样本保留了原始模态的统计特性,但在语义上与配对模态无关。关键优势在于这种反事实生成是隐式的——在潜空间直接操作,不需要真正生成反事实图像或音频,避免了生成模型的复杂性和伪影。
- 设计动机:如果模型仅依赖视觉特征就能做出正确分割,那么无论音频是什么,预测结果都不会变——这就是模态偏好。通过将事实的与反事实的样本进行对比训练,迫使模型不能忽略音频信息。正交分解保证了反事实样本的多样性和语义合理性,优于简单的随机替换或 dropout。
-
协作分布感知对比学习(Collaborative Distribution-Aware Contrastive Learning, CDCL):
- 功能:利用事实-反事实对和跨模态对来联合优化表征对齐和模态解偏
- 核心思路:CDCL 包含两种对比损失。(1)事实-反事实对比:将事实样本(正确的音-视配对)作为正样本,反事实样本(错误的配对)作为负样本,拉大两者在表征空间中的距离。这迫使模型学会区分"真正有关联的"和"语义无关的"跨模态配对。(2)跨模态内聚对比:在事实样本内部,拉近音频和视觉表示的距离,确保相关联的模态表示紧密聚合。两种对比损失协作——前者负责解偏(消除模态偏好),后者负责对齐(缩小模态差距)。"分布感知"体现在损失计算时考虑了样本的分布特性,对困难样本(音视关联不明显的复杂场景)给予更大权重。
- 设计动机:单纯的跨模态对齐不能解决偏好问题(模型可能把所有东西都映射到视觉主导的子空间),单纯的反事实对比不能解决对齐问题(模态间可能对齐后仍有gap)。两者协作才能同时实现"对齐"和"平衡"。
损失函数 / 训练策略¶
总损失由四部分组成:(1)BCE + Dice 分割损失——标准的像素级分割监督;(2)事实-反事实对比损失——InfoNCE 形式,以正确配对为正样本、反事实配对为负样本;(3)跨模态内聚对比损失——拉近相关联的音频和视觉表示;(4)分布感知权重——根据样本的对齐难度自适应调整对比损失的权重。训练策略:先在标准 AVS 设置下预热 backbone(冻结 CLIP),然后联合训练所有模块。
实验关键数据¶
主实验¶
在三个公开 AVS 数据集上的性能对比:
| 方法 | AVSBench-S4 mIoU↑ | AVSBench-MS3 mIoU↑ | AVSS mIoU↑ | 参数量 |
|---|---|---|---|---|
| AVSBench (baseline) | 72.8 | 45.7 | 29.8 | 42M |
| AVSA | 76.4 | 48.9 | 33.2 | 48M |
| CATR | 78.2 | 50.3 | 35.4 | 53M |
| AVSegFormer | 79.9 | 52.1 | 36.5 | 56M |
| GAVS | 80.6 | 53.4 | 37.1 | 58M |
| ICF (Ours) | 82.3 | 55.2 | 39.0 | 55M |
不同设置下的详细对比(S4 为单声源,MS3 为多声源):
| 方法 | S4 mIoU↑ | S4 F-score↑ | MS3 mIoU↑ | MS3 F-score↑ |
|---|---|---|---|---|
| AVSegFormer | 79.9 | 87.2 | 52.1 | 62.8 |
| GAVS | 80.6 | 87.9 | 53.4 | 64.1 |
| ICF (Ours) | 82.3 | 89.1 | 55.2 | 66.3 |
消融实验¶
| 配置 | S4 mIoU↑ | MS3 mIoU↑ | 说明 |
|---|---|---|---|
| Baseline (无 ICF 模块) | 78.5 | 50.8 | 标准 AVS backbone |
| + MIT only | 80.4 | 52.9 | 仅加隐式文本桥梁 |
| + SC only | 79.8 | 52.1 | 仅加语义反事实 |
| + CDCL only | 79.5 | 51.6 | 仅加对比学习 |
| + MIT + SC | 81.2 | 53.8 | 桥梁+反事实 |
| + MIT + SC + CDCL (Full ICF) | 82.3 | 55.2 | 完整方法 |
| SC 替换为 random dropout | 80.0 | 52.3 | 随机替代正交反事实 |
| MIT 仅用帧级 (w/o 多粒度) | 80.8 | 53.1 | 单粒度效果较弱 |
关键发现¶
- MIT 贡献最大(+1.9/+2.1 mIoU),说明缩小模态差距是 AVS 性能提升的首要瓶颈。文本桥梁确实能有效减少音视频的异质性。
- SC 和 CDCL 各有独立贡献,但与 MIT 组合时效果最佳——说明解偏(SC+CDCL)需要在良好的对齐(MIT)基础上才能充分发挥作用。
- 正交反事实显著优于随机 dropout(+2.3/+2.9 mIoU),证明了"语义正交"比"随机丢弃"是更有效的反事实构建方式。
- 多粒度文本表示优于单一帧级表示——全局语义(视频级)对理解整体音视对应关系很重要,局部信息(帧级)不足以覆盖。
- 在多声源场景 (MS3) 中改进更显著(+4.4 vs +3.8 mIoU),因为多声源场景的模态歧义更严重,反事实学习的解偏效果更明显。
亮点与洞察¶
- 隐式文本桥梁的设计避免了显式文本生成的误差:不需要真正生成自然语言描述(captioning 本身就有误差),而是直接在 CLIP 的嵌入空间中操作可学习的"伪文本"。这种隐式方式既利用了预训练模型的语义空间,又避免了文本生成的质量瓶颈。
- 正交反事实是一种优雅的偏差消除方式:比显式修改文本结构或属性的方法更自然,不依赖人工定义的反事实规则。在潜空间做正交分解是一个数学上干净的操作,可以迁移到其他需要消除模态偏好的多模态任务中(如视觉问答中的语言偏见)。
- 事实-反事实对比与跨模态对比的协作设计很有启发:将"对齐"和"解偏"作为两个正交目标,用两种对比损失分别优化,比用单一损失同时追求两个目标更有效。
局限与展望¶
- 依赖 CLIP 预训练模型的文本空间质量——如果 CLIP 的语义空间对某些音频类别覆盖不好(如复杂的环境声),MIT 的桥梁效果可能受限。
- 正交反事实假设模态间的依赖可以用线性正交分解捕获,对于高度非线性的音视语义关联可能过于简化。
- 实验数据集(AVSBench、AVSS)的规模和多样性有限,未在大规模真实场景(如自动驾驶、多媒体检索)中验证。
- 多粒度隐式文本的生成增加了额外的计算开销,对实时应用可能有影响。
- 未探索将反事实学习扩展到时序维度——当前的反事实是帧级或片段级的,未考虑跨时间步的因果关系。
相关工作与启发¶
- vs AVSegFormer: 基于 Transformer 的 AVS 方法,主要通过注意力机制增强音视交互。ICF 在交互效率之外引入了模态对齐和解偏两个新维度,解决了更深层的问题。
- vs GAVS: GAVS 使用 grounding 信息辅助 AVS。ICF 不需要额外的 grounding 标注,通过隐式文本桥梁实现间接 grounding,标注需求更低。
- vs 反事实学习在 VQA 中的应用: VQA 领域已有用反事实学习消除语言偏见的工作(如 CSS)。ICF 将这一思路首次引入 AVS,并创新性地提出了"正交反事实"替代了之前的"属性编辑反事实",更加泛化。
- 本文的"隐式文本作为模态桥梁"的思想可以扩展到其他异质模态配对(如触觉-视觉、EEG-图像)的对齐问题中。
评分¶
- 新颖性: ⭐⭐⭐⭐ 隐式文本桥梁+正交反事实的组合设计新颖,但反事实学习本身在视觉领域已有先例
- 实验充分度: ⭐⭐⭐⭐ 三个数据集测试,消融实验充分,但缺少更大规模数据的验证
- 写作质量: ⭐⭐⭐⭐ 结构完整,动机论述到位,但部分公式符号定义可以更清晰
- 价值: ⭐⭐⭐⭐ 为 AVS 引入了新的研究视角(模态偏好消除),正交反事实方法可迁移性强
相关论文¶
- [CVPR 2025] Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment
- [ICCV 2025] TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models
- [ICCV 2025] Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation
- [ICCV 2025] How Do Optical Flow and Textual Prompts Collaborate to Assist in Audio-Visual Semantic Segmentation?
- [CVPR 2025] Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics