EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection¶

会议: CVPR 2026
arXiv: 2603.11521
代码: https://github.com/JSLiam94/EReCu (有)
领域: 无监督伪装目标检测
关键词: [无监督伪装检测, 伪标签进化, 多线索感知, 师生框架, 注意力融合]

一句话总结¶

提出EReCu框架，在DINO师生架构上通过多线索原生感知(MNP)提取纹理+语义先验来引导伪标签进化融合(PEF)和局部伪标签精修(LPR)，实现无标注下的伪装目标检测，在4个COD数据集上达到UCOD SOTA。

背景与动机¶

伪装目标检测(COD)因目标与背景高度相似而极具挑战，全监督方法依赖昂贵且模糊的像素级标注，限制了数据集规模和生态多样性。无监督COD(UCOD)目前有两种范式：(1) 伪标签引导——如UCOS-DA用静态伪标签自训练、UCOD-DPL用师生动态伪标签，但过度依赖高维嵌入而忽视原生感知线索，导致边界溢出；(2) 特征学习——如SdalsNet用自蒸馏注意力、EASE用环境原型检索，但缺乏显式伪标签监督导致细节模糊。两种范式各有致命缺陷，且尚未被统一。

核心问题¶

UCOD中伪标签噪声导致边界溢出，而无伪标签的特征学习又导致细节丢失。核心问题是如何让语义可靠性和纹理保真度不是孤立优化，而是通过互反馈环路协同进化。

方法详解¶

整体框架¶

基于DINO的师生架构。输入图像→teacher和student双分支ViT编码→MNP从原始图像提取多线索特征(LBP+DoG纹理+冻结ResNet-18语义)→PEF利用多线索引导伪标签进化(EPL做师生交互去噪 + STAF做多层注意力谱融合)→LPR从teacher注意力头中选择高置信区域生成局部伪标签修复细节→输出分割mask。Teacher通过EMA(动量0.99)更新。

关键设计¶

多线索原生感知(MNP): 用LBP和DoG提取低层纹理特征，用冻结ResNet-18提取中层语义特征，拼接得到多线索特征F_MNP。设计多线索质量度量S_mc：将图像分为内部(R_i)、边界(R_s)、外部(R_o)三个区域，通过随机patch采样的修正余弦相似度计算内外分离度、内边界对比度和边界-外部相似度，三者均值即S_mc。S_mc越高说明前背景分离越好，其对应的损失L_MNP = 1 - S_mc用于约束伪标签更新与原生图像线索对齐。
伪标签进化融合(PEF): 包含EPL和STAF两个子模块。EPL对student浅层特征用深度可分离卷积(DSC)增强空间细节，同时与teacher深层特征交互，迭代优化伪标签(用Dice损失+L_MNP约束)。STAF将student三个层级(1/3、2/3、最终层)的注意力图堆叠为三阶张量，用Tucker分解+截断SVD提取主要谱成分进行融合，复杂度O(r²d)，生成低噪声全局预测M_s^fu。
局部伪标签精修(LPR): 包含TAS和LPG。TAS用注意力熵筛选聚焦度高的teacher注意力头，再用S_mc验证与原生感知线索的一致性(双阈值τ_e和τ_s均可学习)。LPG对选中头用自适应阈值(均值+α·标准差)提取高置信区域生成局部伪标签P_k，用Dice+CE损失引导student融合预测M_s^fu向精细边界靠拢。

损失函数 / 训练策略¶

总损失 = EPL中的Dice损失(学生DSC mask与学生/教师伪mask对齐) + L_MNP(多线索约束) + LPR中的Dice+CE损失(融合预测与局部伪标签对齐)。训练25个epoch，batch size 32，AdamW优化器+余弦退火，使用AMP混合精度。backbone为DINO-ViT-S/8，在V100-SXM2 32GB上训练。

实验关键数据¶

数据集	指标	EReCu	UCOD-DPL(前SOTA)	提升
CHAMELEON	S_m↑	.7321	.7287	+.0034
CHAMELEON	F_w↑	.6187	.6154	+.0033
CHAMELEON	E_m↑	.8523	.8486	+.0037
CAMO	S_m↑	.7027	.7013	+.0014
COD10K	S_m↑	.7221	.7090	+.0131
COD10K	F_w↑	.5628	.5481	+.0147
COD10K	E_m↑	.8185	.8090	+.0095
NC4K	S_m↑	.7583	.7538	+.0045

训练集：CAMO-Train(1000张) + COD10K-Train(3040张)，无标注，评估集：CHAMELEON(76) / CAMO(250) / COD10K(2026) / NC4K(4121)。

消融实验要点¶

PEF(含EPL+STAF)贡献最大：移除后CAMO上S_m从0.7027降到0.6758(-2.69%)
MNP移除后S_m从0.7027降到0.6887，证实原生纹理线索对边界判别至关重要
LPR移除后S_m从0.7027降到0.6895，局部精修对细节恢复有明确贡献
MNP+EPL组合获得最大互补增益；仅单模块时性能明显低于三四模块联合
DINO基线(无任何模块)：CAMO S_m=0.6376，全模块提升+0.0651

亮点¶

将伪标签引导和特征学习两种UCOD范式统一到一个协同进化框架中，概念清晰
MNP的多区域(内/边/外)patch采样余弦度量设计巧妙，可复用于其他无监督分割任务判断mask质量
STAF用Tucker分解+SVD对多层注意力做谱融合是一种轻量且优雅的多尺度特征聚合方式
TAS中注意力熵+多线索一致性双条件选择注意力头的机制，可泛化到其他需要注意力头选择的场景

局限性 / 可改进方向¶

提升幅度在某些数据集/指标上偏小(如CAMO S_m仅+0.0014，COD10K M指标比UCOD-DPL差)
仅在DINO-ViT-S/8上验证，未探索DINOv2或更大backbone的效果
训练25 epoch + EMA + 多路损失 + Tucker/SVD计算，训练开销不小
未讨论对多实例伪装场景的处理能力
MNP中纹理描述子(LBP, DoG)是手工设计的，可探索学习化替代

与相关工作的对比¶

vs UCOD-DPL: UCOD-DPL也用师生框架做动态伪标签学习，但依赖高维嵌入忽略原生图像线索导致边界溢出。EReCu引入MNP提供原生感知引导，且用STAF做谱融合替代简单加权聚合。
vs SdalsNet: SdalsNet用自蒸馏注意力位移做前背景分离但缺乏伪标签监督导致细节模糊。EReCu同时具备伪标签引导和特征学习的双重优势。
vs EASE: EASE用环境原型检索增强背景感知，但无代码复现，且也缺乏伪标签显式监督。EReCu在有代码报告的UCOD方法中全面领先。

启发与关联¶

idea: MNP的多线索质量度量S_mc可用于主动学习场景中估计无标注样本的分割mask质量，筛选值得标注的样本
idea: 伪标签进化+原生线索引导的范式可迁移到无监督显著性检测、无监督医学图像分割等任务
idea: STAF的Tucker+SVD多层注意力融合可用于其他需要多尺度注意力聚合的任务(如深度估计)
与频域融合的想法可能互补：MNP的纹理线索可用频域滤波增强

评分¶

新颖性: ⭐⭐⭐⭐ 将两种UCOD范式统一的思路好，但各模块组合感较强
实验充分度: ⭐⭐⭐⭐ 4个数据集+完整消融+可视化，但部分提升偏小
写作质量: ⭐⭐⭐⭐ 框架图清晰，公式完整，逻辑连贯
价值: ⭐⭐⭐⭐ UCOD方向SOTA且开源，S_mc度量可复用
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐
对我的价值: ⭐⭐⭐