跳转至

COIN-Matting: Confounder Intervention for Image Matting

会议: ECCV 2024
arXiv: 无
代码: 无
领域: 图像抠图 / 因果推理
关键词: 图像抠图、因果推断、混淆因子干预、数据集偏差、后门调整

一句话总结

本文从因果推断角度分析图像抠图任务中的数据集偏差问题,识别出对比度偏差和透明度偏差两种典型偏差及其根源——混淆因子,并通过后门调整提出模型无关的 COIN 抠图框架,显著缓解偏差影响、提升现有抠图模型性能。

研究背景与动机

领域现状:深度学习方法在图像抠图(Image Matting)领域取得了显著进展,从基于 trimap 的传统方法到端到端的自动抠图模型,精度不断提高。主流方法通常在合成数据集(如 Adobe Composition-1k)上训练,采用前景与背景随机合成的策略构建训练对。

现有痛点:尽管性能提升明显,但现有抠图模型存在严重的数据集偏差问题。作者识别出两种典型偏差:(1)对比度偏差(contrast bias)——模型倾向于在前景和背景对比度大时表现好,对比度低时性能急剧下降;(2)透明度偏差(transparency bias)——模型对不同透明度区域的alpha预测存在系统性偏差,如倾向于将半透明区域预测为完全不透明或完全透明。

核心矛盾:这些偏差的根源在于训练数据的采集和合成方式。合成数据集中前景和背景的组合方式会引入伪相关性(spurious correlations),使模型学习到捷径特征而非真正的抠图能力。本质上是因果推断中的混淆因子(confounder)问题——某些变量同时影响输入图像的特征和alpha matte的标注,但并不是抠图真正需要关注的因素。

本文目标(1)明确识别抠图任务中的混淆因子及其导致的偏差类型;(2)提出一种通用的去偏差框架,能适配任意现有抠图模型;(3)在多个数据集和多种抠图方法上验证去偏差效果。

切入角度:作者从结构因果模型(Structural Causal Model, SCM)的角度对抠图任务建模,将输入图像、alpha matte、以及可能的混淆因子之间的因果关系明确刻画出来。通过因果图分析,识别出混淆因子导致偏差的路径,然后用因果干预手段切断这些路径。

核心 idea:用因果推断中的后门调整(backdoor adjustment)对混淆因子进行干预,构建模型无关的 COIN 框架来消除图像抠图中的对比度偏差和透明度偏差。

方法详解

整体框架

COIN-Matting 是一个模型无关的框架,可以"套在"任意现有抠图模型之上使用。整体pipeline如下:输入一张图像(及可能的 trimap),首先对图像进行因果分析,识别出混淆因子的不同取值层(strata);然后在每个层上分别进行抠图推断;最后通过后门调整公式对各层的预测结果加权整合,得到最终的无偏alpha matte。训练阶段通过数据增强和重采样策略来近似实现后门调整,推理阶段则直接使用训练好的去偏差模型。

关键设计

  1. 因果图建模与混淆因子识别:

    • 功能:从因果推断角度建立图像抠图的结构因果模型,揭示偏差的来源
    • 核心思路:构建 SCM 图,将输入图像 \(X\)、alpha matte \(Y\)、混淆因子 \(C\)(如前景-背景对比度、透明度分布)之间的因果关系表示出来。在 SCM 中,混淆因子 \(C\) 同时影响 \(X\)\(Y\),产生了虚假的相关路径 \(X \leftarrow C \rightarrow Y\)。对比度偏差来源于合成时前景与背景的亮度/颜色差异分布不均,透明度偏差来源于训练集中alpha值的分布偏斜
    • 设计动机:传统方法只关注模型架构设计时忽略了数据层面的偏差问题,因果建模提供了识别和量化偏差的理论工具
  2. 后门调整干预机制(Backdoor Adjustment):

    • 功能:通过因果干预切断混淆因子到输入的路径,消除虚假相关
    • 核心思路:根据 Pearl 的后门准则,通过对混淆因子 \(C\) 进行分层求和来消除其影响。具体公式为 \(P(Y|do(X)) = \sum_c P(Y|X, C=c) P(C=c)\)。在实践中,将混淆因子的取值空间离散化为若干层(如对比度分为高/中/低三档),对每层分别估计条件概率,然后按先验概率加权平均。这相当于"假装"模型在每种对比度/透明度条件下都见过均匀的训练数据
    • 设计动机:后门调整是因果推断中消除混淆偏差的标准技术,直接应用到抠图任务中避免了重新设计模型的需要
  3. 模型无关的训练策略:

    • 功能:将后门调整转化为可操作的训练流程,适配任意抠图模型
    • 核心思路:在训练阶段,通过以下方式近似实现后门调整:(1)对对比度偏差,在合成训练数据时控制前景-背景的对比度分布,确保高/中/低对比度的样本均匀出现;(2)对透明度偏差,引入透明度感知的采样策略,按不同alpha区间的面积占比重新分配损失权重;(3)在损失函数中加入分层加权项,使梯度更新反映后门调整的加权求和。整个框架不修改底层抠图模型的结构,只调整训练数据分布和损失计算方式
    • 设计动机:模型无关性是该框架的核心优势,使其能即插即用地提升各种已有方法

损失函数 / 训练策略

训练采用标准的alpha预测损失(如L1/L2损失和composition损失),但在损失计算中引入了分层加权机制。具体来说,对每个训练样本,根据其所属的混淆因子层(对比度层和透明度层)计算一个调整权重,使得少见层的样本获得更大的损失权重,实现重要性加权(importance weighting)。这等价于在期望意义上实现后门调整。此外还使用了数据增强策略来扩充稀缺的混淆因子层的样本多样性。

实验关键数据

主实验

数据集 指标 本文(+COIN) 之前基线 提升
Composition-1k SAD 显著降低 各基线原始值 各方法均有提升
Composition-1k MSE 显著降低 各基线原始值 不同方法提升2-8%
Distinctions-646 SAD 降低 基线值 泛化性验证
真实世界数据 视觉质量 明显改善 基线值 半透明区域改善最大

实验覆盖了多种主流抠图方法(如 IndexNet、GCA、MatteFormer 等),COIN 框架在所有方法上都带来了一致的提升。

消融实验

配置 关键指标 说明
无干预 基线 SAD/MSE 原始模型存在明显偏差
仅对比度干预 SAD 降低 高对比度场景下改善明显
仅透明度干预 MSE 降低 半透明区域预测精度提升
双因子干预 最优 两种干预互补叠加效果
不同分层粒度 3-5层最优 过粗/过细分层都不理想

关键发现

  • 对比度偏差在低对比度场景中尤为严重,COIN 框架能将此类场景的误差降低约20%以上
  • 透明度偏差导致模型在alpha值接近0.5的区域预测最不准确,干预后该区域精度大幅提升
  • COIN 框架的去偏差效果在真实世界图像上比在合成测试集上更为显著,说明偏差问题在实际应用中更加突出
  • 框架的计算开销极小,训练时间增加不超过10%,推理时间不增加

亮点与洞察

  1. 因果推断视角的新颖性:首次将因果推断的混淆因子理论系统性地应用于图像抠图,为理解和解决抠图偏差提供了理论基础
  2. 模型无关的通用性:COIN 框架不修改底层模型结构,可直接应用于任何抠图方法,这种"框架级"的改进思路具有很强的实用价值
  3. 偏差类型的系统分析:对对比度偏差和透明度偏差的识别和分析本身就是重要的贡献,为后续研究指明了方向
  4. 理论与实践的结合:从因果图到后门调整再到可操作的训练策略,逻辑链条完整

局限与展望

  1. 混淆因子的识别目前依赖人工分析,未来可以探索自动发现混淆因子的方法
  2. 分层策略的粒度需要手动调整,更精细的自适应分层可能带来进一步提升
  3. 论文主要在合成数据集上验证,更大规模的真实世界评测有助于进一步证明方法的价值
  4. 除了对比度和透明度,可能还存在其他未识别的混淆因子(如纹理复杂度、前景形状等)
  5. 后门调整的近似精度受限于分层数量和数据增强的多样性

相关工作与启发

  • 因果推断在CV中的应用:类似的去偏差思路已在图像分类(如CaaM)、目标检测等任务中成功应用,COIN 是首次延伸到抠图领域
  • 数据偏差研究:与 domain adaptation 和 debiasing 方向相关,但 COIN 从因果角度提出了更系统的解决方案
  • 图像抠图发展:从传统的基于采样/传播方法到深度学习方法,数据质量越来越重要,COIN 提出的去偏差框架可能成为标准组件

评分

  • 新颖性: ⭐⭐⭐⭐ 因果推断视角在抠图领域的首次系统应用,角度新颖
  • 实验充分度: ⭐⭐⭐⭐ 多模型多数据集验证,消融实验完整
  • 写作质量: ⭐⭐⭐⭐ 因果分析逻辑清晰,问题动机阐述充分
  • 价值: ⭐⭐⭐ 模型无关的去偏差框架具有实用价值,但偏差类型有限

相关论文