Learning Camouflaged Object Detection from Noisy Pseudo Label¶
会议: ECCV 2024
arXiv: 2407.13157
代码: zhangjinCV/Noisy-COD
领域: 伪装目标检测 / 语义分割
关键词: 伪装目标检测, 弱半监督学习, 噪声标签, Box Prompt, 噪声校正损失
一句话总结¶
提出首个弱半监督伪装目标检测方法 (WSSCOD),仅用 20% 像素级标注 + 80% 框标注即可达到全监督 SOTA 的可比性能,核心贡献是一个自适应噪声校正损失 \(\mathcal{L}_{NC}\),可在早期学习和记忆化两个阶段分别优化。
研究背景与动机¶
伪装目标检测 (COD) 旨在分割与环境高度融合的目标,标注极其耗时(每张约 60 分钟)。现有弱监督方法(点标注、涂鸦标注)由于前景背景视觉界限不清,性能远落后于全监督方法。作者观察到: - 稀疏标注(点、涂鸦)使判别器难以区分伪装物体,导致高假阴性 - 密集标注(框)会产生明显假阳性,但提供了丰富的目标位置信息 - 框标注可以 1) 遮蔽复杂背景降低伪装程度,2) 指示目标大致位置简化搜索
因此作者提出利用框标注作为 prompt,结合极少量像素级标注,形成一种经济高效的新训练范式。
方法详解¶
整体框架¶
WSSCOD 是一个两阶段方法: 1. 阶段一:用 \(M\) 张全标注图像 + 框标注训练辅助网络 ANet,生成剩余 \(N\) 张图像的伪标签 2. 阶段二:将全标注图像与伪标签图像合并为 \(\mathcal{D}_t\),用噪声校正损失 \(\mathcal{L}_{NC}\) 训练主网络 PNet
其中 \(M\) 占比为 \(\{1\%, 5\%, 10\%, 20\%\}\),对应模型命名为 PNetF1, PNetF5, PNetF10, PNetF20。
关键设计¶
-
辅助网络 ANet(双分支编码器 + 反转融合解码器):
- 双分支编码器:使用两个 ConvNeXt-B 分别编码原始图像 \(x_m\) 和框 proposal \(\tilde{b}_m = x_m \cdot b_m\),提取互补的多尺度特征
- 频率变换器 (Frequency Transformer):利用离散小波变换 DWT 提取低频和高频分量,高频与浅层特征融合捕捉细节,低频与深层特征融合增强语义
- 反转融合解码器:UNet 风格的多层特征融合,同时引入反转 mask \(Rev(p) = -\sigma(p) + 1\),将背景与困难区域关联,放大其与正确像素的差异
- 设计动机:框内信息不总是可靠的,因此需要原始图像与框 proposal 互补,而频率域信息可以揭示伪装场景中更细微的目标结构
-
主网络 PNet(单分支结构):
- 保留 ANet 的模块但仅使用图像分支,编码器改用更强的 PVTv2-B4
- 推理时仅需输入图像,不需要框标注
- \(p_{pn}^k = \Pi(\Phi_t(\mathbf{F}_t^k), ASPP(\mathbf{F}_t^4))\)
-
噪声校正损失 \(\mathcal{L}_{NC}\):
- 核心公式:\(\mathcal{L}_{NC} = \frac{\sum_{i=1}^{H \times W} |p_i - g_i|^q}{\sum_{i=1}^{H \times W}(p_i + g_i) - \sum_{i=1}^{H \times W} p_i \cdot g_i}\)
- 早期学习阶段 (\(q=2\)):等价于 IoU-form 损失,加速模型收敛到正确像素
- 记忆化阶段 (\(q=1\)):变为 MAE-form 损失,梯度值对每个像素相同(\(\frac{\partial \mathcal{L}_{NC}}{\partial p_i} = \frac{sign(p_i - g_i)}{分母}\)),不会被噪声像素主导
- 相比纯 MAE:\(\mathcal{L}_{NC}\) 是面积依赖的,可利用像素间空间相关性,收敛更快更好
- 可容忍高达 50% 的噪声率
- 设计动机:传统 CE 和 IoU 损失对困难像素更敏感,在干净标签时有利但在噪声标签上会导致严重错误引导
损失函数 / 训练策略¶
- ANet 和 PNet 均训练 100 个 epoch
- \(q\) 的切换时机随噪声率变化:PNetF1/F5/F10/F20 分别在第 20/20/40/60 epoch 从 \(q=2\) 切换到 \(q=1\)
- 除 \(\mathcal{L}_{NC}\) 外还使用 DICE loss 辅助学习边界
- 优化器 Adam,初始 lr=1e-7 线性预热至 1e-4 后余弦退火
- 图像增强:随机裁剪、模糊、亮度、翻转,resize 至 384×384
- 所有随机因素固定 seed=2024
实验关键数据¶
主实验¶
| 方法 | 标注量 | CAMO \(F_\beta\)↑ | COD10K \(F_\beta\)↑ | NC4K \(F_\beta\)↑ | CHAMELEON \(F_\beta\)↑ |
|---|---|---|---|---|---|
| SCWS (弱监督) | 涂鸦 100% | 0.651 | 0.644 | 0.713 | 0.721 |
| CamoFormer (全监督) | 像素 100% | 0.854 | 0.811 | 0.868 | 0.880 |
| PNetF1 | 像素 1% + 框 99% | 0.835 | 0.745 | 0.831 | 0.812 |
| PNetF20 | 像素 20% + 框 80% | 0.856 | 0.792 | 0.857 | 0.861 |
| PNet†F20 | 像素 20% + 框 240% | 0.870 | 0.857 | 0.888 | 0.886 |
消融实验¶
| 配置 | \(F_\beta\)↑ | \(S_\alpha\)↑ | 说明 |
|---|---|---|---|
| CE + IoU | 0.780 | 0.844 | 传统损失对噪声敏感 |
| \(\mathcal{L}_{NC}^{q=2.0}\) (仅 IoU-form) | 0.778 | 0.849 | 不做噪声校正 |
| \(\mathcal{L}_{NC}^{q=1.0}\) (仅 MAE-form) | 0.780 | 0.855 | 收敛能力不足 |
| GCE | 0.759 | 0.835 | 分类噪声方法不适用分割 |
| \(\mathcal{L}_{NC}\) (完整) | 0.792 | 0.860 | 两阶段自适应最优 |
框标注 vs 其他提示的消融:框标注比涂鸦提升 7.2%,比无提示提升 14.5%(\(F_\beta\)指标)。
关键发现¶
- 仅用 1% 全标注(40 张)即可超越所有弱监督方法
- 20% 全标注即可达到全监督 SOTA 相当性能(差距 < 1%)
- \(\mathcal{L}_{NC}\) 对全监督方法也有提升(SINetv2 \(F_\beta\) +2.1%,SCOD \(F_\beta\) +5.9%)
- WSSCOD 可扩展:额外仅需框标注就能持续提升性能
亮点与洞察¶
- 将噪声标签学习的 "早期学习-记忆化" 现象引入像素级分割任务,并针对性设计了分阶段损失切换策略
- \(\mathcal{L}_{NC}\) 的统一公式非常优雅,通过一个参数 \(q\) 在 IoU-form 和 MAE-form 之间平滑过渡
- 框标注在伪装场景有独特优势:可直接遮蔽复杂背景,降低伪装程度
- 证实了 \(\mathcal{L}_{NC}\) 的通用性:可直接替换现有方法的损失函数获得提升
局限与展望¶
- 框标注精度对最终结果有一定影响(类似多模态偏差问题)
- 双分支融合仅用简单的 channel concatenation,更好的融合策略可进一步提升
- WSSCOD 是两阶段流程(先训 ANet 再训 PNet),较为繁琐
- 未探索 SAM 等 foundation model 作为 ANet 的可能性
相关工作与启发¶
- 与 SAM 比较:即使使用框/点 prompt 的 SAM 也大幅落后于本文方法,说明通用分割模型在伪装场景缺乏专门能力
- 噪声标签学习从分类任务迁移到像素级分割有本质差异:分割中每张图都有噪声像素且存在空间相关性
- 可考虑将 \(\mathcal{L}_{NC}\) 扩展到医学影像分割等标注噪声同样严重的领域
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首个弱半监督 COD 方法,\(\mathcal{L}_{NC}\) 的分阶段设计简洁有效
- 实验充分度: ⭐⭐⭐⭐⭐ — 16 种 SOTA 比较,4 个数据集,详尽的消融(框类型/损失函数/训练策略)
- 写作质量: ⭐⭐⭐⭐ — 动机清晰,公式推导完整,图示丰富
- 价值: ⭐⭐⭐⭐ — 大幅降低 COD 标注成本,\(\mathcal{L}_{NC}\) 有通用价值
相关论文¶
- [ECCV 2024] Frequency-Spatial Entanglement Learning for Camouflaged Object Detection
- [CVPR 2026] EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection
- [NeurIPS 2025] Towards Robust Pseudo-Label Learning in Semantic Segmentation: An Encoding Perspective
- [ECCV 2024] SOS: Segment Object System for Open-World Instance Segmentation With Object Priors
- [CVPR 2026] SDDF: Specificity-Driven Dynamic Focusing for Open-Vocabulary Camouflaged Object Detection