EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection¶
会议: CVPR 2026
arXiv: 2603.11521
代码: https://github.com/JSLiam94/EReCu (有)
领域: 无监督伪装目标检测
关键词: [无监督伪装检测, 伪标签进化, 多线索感知, 师生框架, 注意力融合]
一句话总结¶
提出EReCu框架,在DINO师生架构上通过多线索原生感知(MNP)提取纹理+语义先验来引导伪标签进化融合(PEF)和局部伪标签精修(LPR),实现无标注下的伪装目标检测,在4个COD数据集上达到UCOD SOTA。
背景与动机¶
伪装目标检测(COD)因目标与背景高度相似而极具挑战,全监督方法依赖昂贵且模糊的像素级标注,限制了数据集规模和生态多样性。无监督COD(UCOD)目前有两种范式:(1) 伪标签引导——如UCOS-DA用静态伪标签自训练、UCOD-DPL用师生动态伪标签,但过度依赖高维嵌入而忽视原生感知线索,导致边界溢出;(2) 特征学习——如SdalsNet用自蒸馏注意力、EASE用环境原型检索,但缺乏显式伪标签监督导致细节模糊。两种范式各有致命缺陷,且尚未被统一。
核心问题¶
UCOD中伪标签噪声导致边界溢出,而无伪标签的特征学习又导致细节丢失。核心问题是如何让语义可靠性和纹理保真度不是孤立优化,而是通过互反馈环路协同进化。
方法详解¶
整体框架¶
基于DINO的师生架构。输入图像→teacher和student双分支ViT编码→MNP从原始图像提取多线索特征(LBP+DoG纹理+冻结ResNet-18语义)→PEF利用多线索引导伪标签进化(EPL做师生交互去噪 + STAF做多层注意力谱融合)→LPR从teacher注意力头中选择高置信区域生成局部伪标签修复细节→输出分割mask。Teacher通过EMA(动量0.99)更新。
关键设计¶
- 多线索原生感知(MNP): 用LBP和DoG提取低层纹理特征,用冻结ResNet-18提取中层语义特征,拼接得到多线索特征F_MNP。设计多线索质量度量S_mc:将图像分为内部(R_i)、边界(R_s)、外部(R_o)三个区域,通过随机patch采样的修正余弦相似度计算内外分离度、内边界对比度和边界-外部相似度,三者均值即S_mc。S_mc越高说明前背景分离越好,其对应的损失L_MNP = 1 - S_mc用于约束伪标签更新与原生图像线索对齐。
- 伪标签进化融合(PEF): 包含EPL和STAF两个子模块。EPL对student浅层特征用深度可分离卷积(DSC)增强空间细节,同时与teacher深层特征交互,迭代优化伪标签(用Dice损失+L_MNP约束)。STAF将student三个层级(1/3、2/3、最终层)的注意力图堆叠为三阶张量,用Tucker分解+截断SVD提取主要谱成分进行融合,复杂度O(r²d),生成低噪声全局预测M_s^fu。
- 局部伪标签精修(LPR): 包含TAS和LPG。TAS用注意力熵筛选聚焦度高的teacher注意力头,再用S_mc验证与原生感知线索的一致性(双阈值τ_e和τ_s均可学习)。LPG对选中头用自适应阈值(均值+α·标准差)提取高置信区域生成局部伪标签P_k,用Dice+CE损失引导student融合预测M_s^fu向精细边界靠拢。
损失函数 / 训练策略¶
总损失 = EPL中的Dice损失(学生DSC mask与学生/教师伪mask对齐) + L_MNP(多线索约束) + LPR中的Dice+CE损失(融合预测与局部伪标签对齐)。训练25个epoch,batch size 32,AdamW优化器+余弦退火,使用AMP混合精度。backbone为DINO-ViT-S/8,在V100-SXM2 32GB上训练。
实验关键数据¶
| 数据集 | 指标 | EReCu | UCOD-DPL(前SOTA) | 提升 |
|---|---|---|---|---|
| CHAMELEON | S_m↑ | .7321 | .7287 | +.0034 |
| CHAMELEON | F_w↑ | .6187 | .6154 | +.0033 |
| CHAMELEON | E_m↑ | .8523 | .8486 | +.0037 |
| CAMO | S_m↑ | .7027 | .7013 | +.0014 |
| COD10K | S_m↑ | .7221 | .7090 | +.0131 |
| COD10K | F_w↑ | .5628 | .5481 | +.0147 |
| COD10K | E_m↑ | .8185 | .8090 | +.0095 |
| NC4K | S_m↑ | .7583 | .7538 | +.0045 |
训练集:CAMO-Train(1000张) + COD10K-Train(3040张),无标注,评估集:CHAMELEON(76) / CAMO(250) / COD10K(2026) / NC4K(4121)。
消融实验要点¶
- PEF(含EPL+STAF)贡献最大:移除后CAMO上S_m从0.7027降到0.6758(-2.69%)
- MNP移除后S_m从0.7027降到0.6887,证实原生纹理线索对边界判别至关重要
- LPR移除后S_m从0.7027降到0.6895,局部精修对细节恢复有明确贡献
- MNP+EPL组合获得最大互补增益;仅单模块时性能明显低于三四模块联合
- DINO基线(无任何模块):CAMO S_m=0.6376,全模块提升+0.0651
亮点¶
- 将伪标签引导和特征学习两种UCOD范式统一到一个协同进化框架中,概念清晰
- MNP的多区域(内/边/外)patch采样余弦度量设计巧妙,可复用于其他无监督分割任务判断mask质量
- STAF用Tucker分解+SVD对多层注意力做谱融合是一种轻量且优雅的多尺度特征聚合方式
- TAS中注意力熵+多线索一致性双条件选择注意力头的机制,可泛化到其他需要注意力头选择的场景
局限性 / 可改进方向¶
- 提升幅度在某些数据集/指标上偏小(如CAMO S_m仅+0.0014,COD10K M指标比UCOD-DPL差)
- 仅在DINO-ViT-S/8上验证,未探索DINOv2或更大backbone的效果
- 训练25 epoch + EMA + 多路损失 + Tucker/SVD计算,训练开销不小
- 未讨论对多实例伪装场景的处理能力
- MNP中纹理描述子(LBP, DoG)是手工设计的,可探索学习化替代
与相关工作的对比¶
- vs UCOD-DPL: UCOD-DPL也用师生框架做动态伪标签学习,但依赖高维嵌入忽略原生图像线索导致边界溢出。EReCu引入MNP提供原生感知引导,且用STAF做谱融合替代简单加权聚合。
- vs SdalsNet: SdalsNet用自蒸馏注意力位移做前背景分离但缺乏伪标签监督导致细节模糊。EReCu同时具备伪标签引导和特征学习的双重优势。
- vs EASE: EASE用环境原型检索增强背景感知,但无代码复现,且也缺乏伪标签显式监督。EReCu在有代码报告的UCOD方法中全面领先。
启发与关联¶
- idea: MNP的多线索质量度量S_mc可用于主动学习场景中估计无标注样本的分割mask质量,筛选值得标注的样本
- idea: 伪标签进化+原生线索引导的范式可迁移到无监督显著性检测、无监督医学图像分割等任务
- idea: STAF的Tucker+SVD多层注意力融合可用于其他需要多尺度注意力聚合的任务(如深度估计)
- 与频域融合的想法可能互补:MNP的纹理线索可用频域滤波增强
评分¶
- 新颖性: ⭐⭐⭐⭐ 将两种UCOD范式统一的思路好,但各模块组合感较强
- 实验充分度: ⭐⭐⭐⭐ 4个数据集+完整消融+可视化,但部分提升偏小
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,公式完整,逻辑连贯
- 价值: ⭐⭐⭐⭐ UCOD方向SOTA且开源,S_mc度量可复用
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐
- 对我的价值: ⭐⭐⭐