跳转至

Learning Camouflaged Object Detection from Noisy Pseudo Label

会议: ECCV 2024
arXiv: 2407.13157
代码: zhangjinCV/Noisy-COD
领域: 伪装目标检测 / 语义分割
关键词: 伪装目标检测, 弱半监督学习, 噪声标签, Box Prompt, 噪声校正损失

一句话总结

提出首个弱半监督伪装目标检测方法 (WSSCOD),仅用 20% 像素级标注 + 80% 框标注即可达到全监督 SOTA 的可比性能,核心贡献是一个自适应噪声校正损失 \(\mathcal{L}_{NC}\),可在早期学习和记忆化两个阶段分别优化。

研究背景与动机

伪装目标检测 (COD) 旨在分割与环境高度融合的目标,标注极其耗时(每张约 60 分钟)。现有弱监督方法(点标注、涂鸦标注)由于前景背景视觉界限不清,性能远落后于全监督方法。作者观察到: - 稀疏标注(点、涂鸦)使判别器难以区分伪装物体,导致高假阴性 - 密集标注(框)会产生明显假阳性,但提供了丰富的目标位置信息 - 框标注可以 1) 遮蔽复杂背景降低伪装程度,2) 指示目标大致位置简化搜索

因此作者提出利用框标注作为 prompt,结合极少量像素级标注,形成一种经济高效的新训练范式。

方法详解

整体框架

WSSCOD 是一个两阶段方法: 1. 阶段一:用 \(M\) 张全标注图像 + 框标注训练辅助网络 ANet,生成剩余 \(N\) 张图像的伪标签 2. 阶段二:将全标注图像与伪标签图像合并为 \(\mathcal{D}_t\),用噪声校正损失 \(\mathcal{L}_{NC}\) 训练主网络 PNet

其中 \(M\) 占比为 \(\{1\%, 5\%, 10\%, 20\%\}\),对应模型命名为 PNetF1, PNetF5, PNetF10, PNetF20。

关键设计

  1. 辅助网络 ANet(双分支编码器 + 反转融合解码器)

    • 双分支编码器:使用两个 ConvNeXt-B 分别编码原始图像 \(x_m\) 和框 proposal \(\tilde{b}_m = x_m \cdot b_m\),提取互补的多尺度特征
    • 频率变换器 (Frequency Transformer):利用离散小波变换 DWT 提取低频和高频分量,高频与浅层特征融合捕捉细节,低频与深层特征融合增强语义
    • 反转融合解码器:UNet 风格的多层特征融合,同时引入反转 mask \(Rev(p) = -\sigma(p) + 1\),将背景与困难区域关联,放大其与正确像素的差异
    • 设计动机:框内信息不总是可靠的,因此需要原始图像与框 proposal 互补,而频率域信息可以揭示伪装场景中更细微的目标结构
  2. 主网络 PNet(单分支结构)

    • 保留 ANet 的模块但仅使用图像分支,编码器改用更强的 PVTv2-B4
    • 推理时仅需输入图像,不需要框标注
    • \(p_{pn}^k = \Pi(\Phi_t(\mathbf{F}_t^k), ASPP(\mathbf{F}_t^4))\)
  3. 噪声校正损失 \(\mathcal{L}_{NC}\)

    • 核心公式:\(\mathcal{L}_{NC} = \frac{\sum_{i=1}^{H \times W} |p_i - g_i|^q}{\sum_{i=1}^{H \times W}(p_i + g_i) - \sum_{i=1}^{H \times W} p_i \cdot g_i}\)
    • 早期学习阶段 (\(q=2\)):等价于 IoU-form 损失,加速模型收敛到正确像素
    • 记忆化阶段 (\(q=1\)):变为 MAE-form 损失,梯度值对每个像素相同(\(\frac{\partial \mathcal{L}_{NC}}{\partial p_i} = \frac{sign(p_i - g_i)}{分母}\)),不会被噪声像素主导
    • 相比纯 MAE:\(\mathcal{L}_{NC}\) 是面积依赖的,可利用像素间空间相关性,收敛更快更好
    • 可容忍高达 50% 的噪声率
    • 设计动机:传统 CE 和 IoU 损失对困难像素更敏感,在干净标签时有利但在噪声标签上会导致严重错误引导

损失函数 / 训练策略

  • ANet 和 PNet 均训练 100 个 epoch
  • \(q\) 的切换时机随噪声率变化:PNetF1/F5/F10/F20 分别在第 20/20/40/60 epoch 从 \(q=2\) 切换到 \(q=1\)
  • \(\mathcal{L}_{NC}\) 外还使用 DICE loss 辅助学习边界
  • 优化器 Adam,初始 lr=1e-7 线性预热至 1e-4 后余弦退火
  • 图像增强:随机裁剪、模糊、亮度、翻转,resize 至 384×384
  • 所有随机因素固定 seed=2024

实验关键数据

主实验

方法 标注量 CAMO \(F_\beta\) COD10K \(F_\beta\) NC4K \(F_\beta\) CHAMELEON \(F_\beta\)
SCWS (弱监督) 涂鸦 100% 0.651 0.644 0.713 0.721
CamoFormer (全监督) 像素 100% 0.854 0.811 0.868 0.880
PNetF1 像素 1% + 框 99% 0.835 0.745 0.831 0.812
PNetF20 像素 20% + 框 80% 0.856 0.792 0.857 0.861
PNet†F20 像素 20% + 框 240% 0.870 0.857 0.888 0.886

消融实验

配置 \(F_\beta\) \(S_\alpha\) 说明
CE + IoU 0.780 0.844 传统损失对噪声敏感
\(\mathcal{L}_{NC}^{q=2.0}\) (仅 IoU-form) 0.778 0.849 不做噪声校正
\(\mathcal{L}_{NC}^{q=1.0}\) (仅 MAE-form) 0.780 0.855 收敛能力不足
GCE 0.759 0.835 分类噪声方法不适用分割
\(\mathcal{L}_{NC}\) (完整) 0.792 0.860 两阶段自适应最优

框标注 vs 其他提示的消融:框标注比涂鸦提升 7.2%,比无提示提升 14.5%(\(F_\beta\)指标)。

关键发现

  • 仅用 1% 全标注(40 张)即可超越所有弱监督方法
  • 20% 全标注即可达到全监督 SOTA 相当性能(差距 < 1%)
  • \(\mathcal{L}_{NC}\) 对全监督方法也有提升(SINetv2 \(F_\beta\) +2.1%,SCOD \(F_\beta\) +5.9%)
  • WSSCOD 可扩展:额外仅需框标注就能持续提升性能

亮点与洞察

  • 将噪声标签学习的 "早期学习-记忆化" 现象引入像素级分割任务,并针对性设计了分阶段损失切换策略
  • \(\mathcal{L}_{NC}\) 的统一公式非常优雅,通过一个参数 \(q\) 在 IoU-form 和 MAE-form 之间平滑过渡
  • 框标注在伪装场景有独特优势:可直接遮蔽复杂背景,降低伪装程度
  • 证实了 \(\mathcal{L}_{NC}\) 的通用性:可直接替换现有方法的损失函数获得提升

局限与展望

  • 框标注精度对最终结果有一定影响(类似多模态偏差问题)
  • 双分支融合仅用简单的 channel concatenation,更好的融合策略可进一步提升
  • WSSCOD 是两阶段流程(先训 ANet 再训 PNet),较为繁琐
  • 未探索 SAM 等 foundation model 作为 ANet 的可能性

相关工作与启发

  • 与 SAM 比较:即使使用框/点 prompt 的 SAM 也大幅落后于本文方法,说明通用分割模型在伪装场景缺乏专门能力
  • 噪声标签学习从分类任务迁移到像素级分割有本质差异:分割中每张图都有噪声像素且存在空间相关性
  • 可考虑将 \(\mathcal{L}_{NC}\) 扩展到医学影像分割等标注噪声同样严重的领域

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个弱半监督 COD 方法,\(\mathcal{L}_{NC}\) 的分阶段设计简洁有效
  • 实验充分度: ⭐⭐⭐⭐⭐ — 16 种 SOTA 比较,4 个数据集,详尽的消融(框类型/损失函数/训练策略)
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰,公式推导完整,图示丰富
  • 价值: ⭐⭐⭐⭐ — 大幅降低 COD 标注成本,\(\mathcal{L}_{NC}\) 有通用价值

相关论文