Learning Camouflaged Object Detection from Noisy Pseudo Label¶

会议: ECCV 2024
arXiv: 2407.13157
代码: zhangjinCV/Noisy-COD
领域: 伪装目标检测 / 语义分割
关键词: 伪装目标检测, 弱半监督学习, 噪声标签, Box Prompt, 噪声校正损失

一句话总结¶

提出首个弱半监督伪装目标检测方法 (WSSCOD)，仅用 20% 像素级标注 + 80% 框标注即可达到全监督 SOTA 的可比性能，核心贡献是一个自适应噪声校正损失 \(\mathcal{L}_{NC}\)，可在早期学习和记忆化两个阶段分别优化。

研究背景与动机¶

伪装目标检测 (COD) 旨在分割与环境高度融合的目标，标注极其耗时（每张约 60 分钟）。现有弱监督方法（点标注、涂鸦标注）由于前景背景视觉界限不清，性能远落后于全监督方法。作者观察到： - 稀疏标注（点、涂鸦）使判别器难以区分伪装物体，导致高假阴性 - 密集标注（框）会产生明显假阳性，但提供了丰富的目标位置信息 - 框标注可以 1) 遮蔽复杂背景降低伪装程度，2) 指示目标大致位置简化搜索

因此作者提出利用框标注作为 prompt，结合极少量像素级标注，形成一种经济高效的新训练范式。

方法详解¶

整体框架¶

WSSCOD 是一个两阶段方法： 1. 阶段一：用 \(M\) 张全标注图像 + 框标注训练辅助网络 ANet，生成剩余 \(N\) 张图像的伪标签 2. 阶段二：将全标注图像与伪标签图像合并为 \(\mathcal{D}_t\)，用噪声校正损失 \(\mathcal{L}_{NC}\) 训练主网络 PNet

其中 \(M\) 占比为 \(\{1\%, 5\%, 10\%, 20\%\}\)，对应模型命名为 PNetF1, PNetF5, PNetF10, PNetF20。

关键设计¶

辅助网络 ANet（双分支编码器 + 反转融合解码器）：
- 双分支编码器：使用两个 ConvNeXt-B 分别编码原始图像 \(x_m\) 和框 proposal \(\tilde{b}_m = x_m \cdot b_m\)，提取互补的多尺度特征
- 频率变换器 (Frequency Transformer)：利用离散小波变换 DWT 提取低频和高频分量，高频与浅层特征融合捕捉细节，低频与深层特征融合增强语义
- 反转融合解码器：UNet 风格的多层特征融合，同时引入反转 mask \(Rev(p) = -\sigma(p) + 1\)，将背景与困难区域关联，放大其与正确像素的差异
- 设计动机：框内信息不总是可靠的，因此需要原始图像与框 proposal 互补，而频率域信息可以揭示伪装场景中更细微的目标结构
主网络 PNet（单分支结构）：
- 保留 ANet 的模块但仅使用图像分支，编码器改用更强的 PVTv2-B4
- 推理时仅需输入图像，不需要框标注
- \(p_{pn}^k = \Pi(\Phi_t(\mathbf{F}_t^k), ASPP(\mathbf{F}_t^4))\)
噪声校正损失 \(\mathcal{L}_{NC}\)：
- 核心公式：\(\mathcal{L}_{NC} = \frac{\sum_{i=1}^{H \times W} |p_i - g_i|^q}{\sum_{i=1}^{H \times W}(p_i + g_i) - \sum_{i=1}^{H \times W} p_i \cdot g_i}\)
- 早期学习阶段 (\(q=2\))：等价于 IoU-form 损失，加速模型收敛到正确像素
- 记忆化阶段 (\(q=1\))：变为 MAE-form 损失，梯度值对每个像素相同（\(\frac{\partial \mathcal{L}_{NC}}{\partial p_i} = \frac{sign(p_i - g_i)}{分母}\)），不会被噪声像素主导
- 相比纯 MAE：\(\mathcal{L}_{NC}\) 是面积依赖的，可利用像素间空间相关性，收敛更快更好
- 可容忍高达 50% 的噪声率
- 设计动机：传统 CE 和 IoU 损失对困难像素更敏感，在干净标签时有利但在噪声标签上会导致严重错误引导

损失函数 / 训练策略¶

ANet 和 PNet 均训练 100 个 epoch
\(q\) 的切换时机随噪声率变化：PNetF1/F5/F10/F20 分别在第 20/20/40/60 epoch 从 \(q=2\) 切换到 \(q=1\)
除 \(\mathcal{L}_{NC}\) 外还使用 DICE loss 辅助学习边界
优化器 Adam，初始 lr=1e-7 线性预热至 1e-4 后余弦退火
图像增强：随机裁剪、模糊、亮度、翻转，resize 至 384×384
所有随机因素固定 seed=2024

实验关键数据¶

主实验¶

方法	标注量	CAMO \(F_\beta\)↑	COD10K \(F_\beta\)↑	NC4K \(F_\beta\)↑	CHAMELEON \(F_\beta\)↑
SCWS (弱监督)	涂鸦 100%	0.651	0.644	0.713	0.721
CamoFormer (全监督)	像素 100%	0.854	0.811	0.868	0.880
PNetF1	像素 1% + 框 99%	0.835	0.745	0.831	0.812
PNetF20	像素 20% + 框 80%	0.856	0.792	0.857	0.861
PNet†F20	像素 20% + 框 240%	0.870	0.857	0.888	0.886

消融实验¶

配置	\(F_\beta\)↑	\(S_\alpha\)↑	说明
CE + IoU	0.780	0.844	传统损失对噪声敏感
\(\mathcal{L}_{NC}^{q=2.0}\) (仅 IoU-form)	0.778	0.849	不做噪声校正
\(\mathcal{L}_{NC}^{q=1.0}\) (仅 MAE-form)	0.780	0.855	收敛能力不足
GCE	0.759	0.835	分类噪声方法不适用分割
\(\mathcal{L}_{NC}\) (完整)	0.792	0.860	两阶段自适应最优

框标注 vs 其他提示的消融：框标注比涂鸦提升 7.2%，比无提示提升 14.5%（\(F_\beta\)指标）。

关键发现¶

仅用 1% 全标注（40 张）即可超越所有弱监督方法
20% 全标注即可达到全监督 SOTA 相当性能（差距 < 1%）
\(\mathcal{L}_{NC}\) 对全监督方法也有提升（SINetv2 \(F_\beta\) +2.1%，SCOD \(F_\beta\) +5.9%）
WSSCOD 可扩展：额外仅需框标注就能持续提升性能

亮点与洞察¶

将噪声标签学习的 "早期学习-记忆化" 现象引入像素级分割任务，并针对性设计了分阶段损失切换策略
\(\mathcal{L}_{NC}\) 的统一公式非常优雅，通过一个参数 \(q\) 在 IoU-form 和 MAE-form 之间平滑过渡
框标注在伪装场景有独特优势：可直接遮蔽复杂背景，降低伪装程度
证实了 \(\mathcal{L}_{NC}\) 的通用性：可直接替换现有方法的损失函数获得提升

局限与展望¶

框标注精度对最终结果有一定影响（类似多模态偏差问题）
双分支融合仅用简单的 channel concatenation，更好的融合策略可进一步提升
WSSCOD 是两阶段流程（先训 ANet 再训 PNet），较为繁琐
未探索 SAM 等 foundation model 作为 ANet 的可能性

评分¶

新颖性: ⭐⭐⭐⭐ — 首个弱半监督 COD 方法，\(\mathcal{L}_{NC}\) 的分阶段设计简洁有效
实验充分度: ⭐⭐⭐⭐⭐ — 16 种 SOTA 比较，4 个数据集，详尽的消融（框类型/损失函数/训练策略）
写作质量: ⭐⭐⭐⭐ — 动机清晰，公式推导完整，图示丰富
价值: ⭐⭐⭐⭐ — 大幅降低 COD 标注成本，\(\mathcal{L}_{NC}\) 有通用价值