Enhancing Sample Selection Against Label Noise by Cutting Mislabeled Easy Examples¶

会议: NeurIPS 2025
arXiv: 2502.08227
代码: tmllab/2025_NeurIPS_MEE
领域: 鲁棒学习 / 噪声标签
关键词: 噪声标签, 样本选择, 误标注易学样本, Early Cutting, 鲁棒训练

一句话总结¶

发现并定义了误标注易学样本（Mislabeled Easy Examples, MEEs）——被模型早期训练即正确预测为错误标签的样本对泛化伤害最大，并提出 Early Cutting 方法利用模型后期状态重新校准早期置信子集来过滤MEEs。

深度学习严重依赖高质量标注，但大规模数据集不可避免存在噪声标签
样本选择是处理噪声标签的主流方法，分为基于损失的方法和基于动态的方法
基于动态的方法利用DNN的记忆效应：先学简单模式，后拟合噪声，因此信任早期学到的样本
现有方法关注降低所选子集的噪声率，但忽视了不同误标注样本的危害程度差异
实验发现：被模型早期正确预测（按错误标签）的误标注样本，其对泛化性能的损害显著大于后期才学到的误标注样本
这些样本在特征空间中更靠近其错误标签类的中心（距离比 \(r = d_{\text{mislabeled}}/d_{\text{true}} < 1\) 的占53.8%），使模型"合理地"将其归入错误类别

在噪声标签学习的样本选择中，如何识别并过滤对模型泛化伤害最大的误标注易学样本（MEEs），即那些在训练早期就被模型按错误标签"自信地学会"的样本。

定义样本 \((\mathbf{x}_i, \tilde{y}_i)\) 的学习时间：

\[LT_i = \min\{E_i \mid \hat{y}_i^{E_i-1} = \hat{y}_i^{E_i} = \tilde{y}_i\}\]

即模型连续两个epoch预测为给定标签的最早时间点。MEEs是学习时间最小的误标注样本子集。

MEEs在早期模型特征空间中距离错误标签类中心更近：中位距离比 \(r=0.830\)（53.8%的MEEs有 \(r<1\)），而非MEEs中位 \(r=3.923\)（仅5.4%有 \(r<1\)）
其视觉特征与错误标签类的简单模式高度匹配（如飞机图片以海为背景被标为"船"）
破坏模型早期学习简单正确模式的过程，错误特征与干净数据表示纠缠

核心思路：利用模型后期状态（early stopping epoch \(t\)）重新审视早期学到的置信子集。

步骤1：基础样本选择 — 按学习时间 \(LT_i\) 选择早期学到的子集 \(\mathcal{D}^s\)

步骤2：Early Cutting 重校准 — 从 \(\mathcal{D}^s\) 中识别MEEs。用模型 \(f_{\theta^t}\) 计算三个指标：

高损失：\(L_i = -\log p_i^{(\tilde{y}_i)} > \delta\)（模型预测与给定标签不一致）
高置信度：\(c_i = p_i^{(\hat{y}_i)} > \tau\)（模型对其预测非常确定）
低梯度范数：\(g_i = \|\nabla_{\mathbf{x}_i} L_i\|_2 < \epsilon\)（损失对输入扰动不敏感，说明错误关联已牢固学习）

MEEs的操作性定义：

\[\text{MEEs} = \{i \in \mathcal{D}^s \mid (L_i > \delta) \wedge (c_i > \tau) \wedge (g_i < \epsilon)\}\]

实际实现使用分位数阈值：损失取top 10%、置信度取top 20%、梯度范数取bottom 20%。

步骤3：移除并迭代 — \(\mathcal{D}^s_{\text{refined}} \leftarrow \mathcal{D}^s \setminus \text{MEEs}\)，在精炼后的子集上从头训练模型。

方法	Sym 20%	Sym 40%	Inst 20%	Inst 40%
Cross-Entropy	86.64	82.64	87.62	82.82
Co-teaching	89.13	82.29	89.42	81.91
Me-Momentum	92.76	90.75	91.87	88.80
Self-Filtering	92.88	90.46	92.35	86.93
RLM	93.11	91.06	93.13	89.73
Early Cutting	93.79	91.80	93.40	90.78

方法	Sym 20%	Sym 40%	Inst 20%	Inst 40%
Misdetect	73.90	65.10	70.45	63.66
RLM	71.68	67.68	68.26	67.31
CSGN	69.89	56.18	71.97	65.43
Early Cutting	76.20	72.77	75.03	69.94

方法	WebVision Val	ILSVRC12 Val	ImageNet-1k Sym40%
Cross-Entropy	67.32	63.84	67.99
Late Stopping	71.56	68.32	71.42
Early Cutting	73.00+	70.00+	74.00+

Early Cutting额外过滤的样本中误标注比例极高：对称噪声56.12%，非对称噪声95.29%，实例噪声91.33%。

方法类型	代表	选择依据	能否过滤MEEs
基于损失	Co-teaching	小损失=干净	不能（MEEs损失小）
基于动态	Me-Momentum	早期学到=干净	不能（MEEs被早期学到）
稳健损失	GCE, Student Loss	隐式下加权噪声	部分
Early Cutting	本文	早期选择+后期校准	能