Enhancing Sample Selection Against Label Noise by Cutting Mislabeled Easy Examples¶
会议: NeurIPS 2025
arXiv: 2502.08227
代码: tmllab/2025_NeurIPS_MEE
领域: 鲁棒学习 / 噪声标签
关键词: 噪声标签, 样本选择, 误标注易学样本, Early Cutting, 鲁棒训练
一句话总结¶
发现并定义了误标注易学样本(Mislabeled Easy Examples, MEEs)——被模型早期训练即正确预测为错误标签的样本对泛化伤害最大,并提出 Early Cutting 方法利用模型后期状态重新校准早期置信子集来过滤MEEs。
背景与动机¶
- 深度学习严重依赖高质量标注,但大规模数据集不可避免存在噪声标签
- 样本选择是处理噪声标签的主流方法,分为基于损失的方法和基于动态的方法
- 基于动态的方法利用DNN的记忆效应:先学简单模式,后拟合噪声,因此信任早期学到的样本
- 现有方法关注降低所选子集的噪声率,但忽视了不同误标注样本的危害程度差异
- 实验发现:被模型早期正确预测(按错误标签)的误标注样本,其对泛化性能的损害显著大于后期才学到的误标注样本
- 这些样本在特征空间中更靠近其错误标签类的中心(距离比 \(r = d_{\text{mislabeled}}/d_{\text{true}} < 1\) 的占53.8%),使模型"合理地"将其归入错误类别
核心问题¶
在噪声标签学习的样本选择中,如何识别并过滤对模型泛化伤害最大的误标注易学样本(MEEs),即那些在训练早期就被模型按错误标签"自信地学会"的样本。
方法详解¶
Mislabeled Easy Examples (MEEs) 的定义¶
定义样本 \((\mathbf{x}_i, \tilde{y}_i)\) 的学习时间:
即模型连续两个epoch预测为给定标签的最早时间点。MEEs是学习时间最小的误标注样本子集。
MEEs为何有害¶
- MEEs在早期模型特征空间中距离错误标签类中心更近:中位距离比 \(r=0.830\)(53.8%的MEEs有 \(r<1\)),而非MEEs中位 \(r=3.923\)(仅5.4%有 \(r<1\))
- 其视觉特征与错误标签类的简单模式高度匹配(如飞机图片以海为背景被标为"船")
- 破坏模型早期学习简单正确模式的过程,错误特征与干净数据表示纠缠
Early Cutting 算法¶
核心思路:利用模型后期状态(early stopping epoch \(t\))重新审视早期学到的置信子集。
步骤1:基础样本选择 — 按学习时间 \(LT_i\) 选择早期学到的子集 \(\mathcal{D}^s\)
步骤2:Early Cutting 重校准 — 从 \(\mathcal{D}^s\) 中识别MEEs。用模型 \(f_{\theta^t}\) 计算三个指标:
- 高损失:\(L_i = -\log p_i^{(\tilde{y}_i)} > \delta\)(模型预测与给定标签不一致)
- 高置信度:\(c_i = p_i^{(\hat{y}_i)} > \tau\)(模型对其预测非常确定)
- 低梯度范数:\(g_i = \|\nabla_{\mathbf{x}_i} L_i\|_2 < \epsilon\)(损失对输入扰动不敏感,说明错误关联已牢固学习)
MEEs的操作性定义:
实际实现使用分位数阈值:损失取top 10%、置信度取top 20%、梯度范数取bottom 20%。
步骤3:移除并迭代 — \(\mathcal{D}^s_{\text{refined}} \leftarrow \mathcal{D}^s \setminus \text{MEEs}\),在精炼后的子集上从头训练模型。
鲁棒性保证¶
- 早期学到的样本本身具有高冗余性(多个样本代表相似的简单模式),因此误删少量干净样本影响很小
- 即使 \(\mathcal{S}\) 为空集(无可疑样本),方法自动退化为原始样本选择
实验关键数据¶
CIFAR-10(ResNet-18)¶
| 方法 | Sym 20% | Sym 40% | Inst 20% | Inst 40% |
|---|---|---|---|---|
| Cross-Entropy | 86.64 | 82.64 | 87.62 | 82.82 |
| Co-teaching | 89.13 | 82.29 | 89.42 | 81.91 |
| Me-Momentum | 92.76 | 90.75 | 91.87 | 88.80 |
| Self-Filtering | 92.88 | 90.46 | 92.35 | 86.93 |
| RLM | 93.11 | 91.06 | 93.13 | 89.73 |
| Early Cutting | 93.79 | 91.80 | 93.40 | 90.78 |
CIFAR-100(ResNet-34)¶
| 方法 | Sym 20% | Sym 40% | Inst 20% | Inst 40% |
|---|---|---|---|---|
| Misdetect | 73.90 | 65.10 | 70.45 | 63.66 |
| RLM | 71.68 | 67.68 | 68.26 | 67.31 |
| CSGN | 69.89 | 56.18 | 71.97 | 65.43 |
| Early Cutting | 76.20 | 72.77 | 75.03 | 69.94 |
大规模数据集(ResNet-50)¶
| 方法 | WebVision Val | ILSVRC12 Val | ImageNet-1k Sym40% |
|---|---|---|---|
| Cross-Entropy | 67.32 | 63.84 | 67.99 |
| Late Stopping | 71.56 | 68.32 | 71.42 |
| Early Cutting | 73.00+ | 70.00+ | 74.00+ |
Early Cutting额外过滤的样本中误标注比例极高:对称噪声56.12%,非对称噪声95.29%,实例噪声91.33%。
亮点¶
- ⭐ 发现MEEs现象——并非所有误标注样本等害,早期学到的误标注样本伤害最大——这是对噪声标签学习的重要认知更新
- ⭐ 方法设计反直觉但合理:利用"通常被认为不可信"的后期模型来校正早期选择,因为后期模型恰好能区分MEEs
- ⭐ 三重标准(高损失+高置信+低梯度)精准锁定MEEs,避免误伤干净困难样本
- 在CIFAR-100 Sym40%噪声下比次优方法高出5个百分点,提升极为显著
局限性 / 可改进方向¶
- 三个分位数阈值(10%, 20%, 20%)基于验证集确定,不同数据分布下可能需要调整
- Early Cutting需要先完整训练一次模型获取学习时间,再第二次训练时进行筛选,计算开销翻倍
- 梯度范数的计算对高分辨率或大模型可能产生显著开销
- 多轮迭代(\(I_{\text{rate}}\)轮)在实际场景中如何确定最优迭代次数未充分讨论
与相关工作的对比¶
| 方法类型 | 代表 | 选择依据 | 能否过滤MEEs |
|---|---|---|---|
| 基于损失 | Co-teaching | 小损失=干净 | 不能(MEEs损失小) |
| 基于动态 | Me-Momentum | 早期学到=干净 | 不能(MEEs被早期学到) |
| 稳健损失 | GCE, Student Loss | 隐式下加权噪声 | 部分 |
| Early Cutting | 本文 | 早期选择+后期校准 | 能 |
启发与关联¶
- MEEs的存在说明DNN的"先学简单后记忆噪声"范式存在例外,某些噪声恰好符合简单模式
- 特征空间距离比 \(r\) 可作为噪声标签有害程度的量化指标,有潜力成为通用工具
- Early Cutting 的"利用后期模型校正早期判断"思路可推广到其他需要多阶段决策的场景
评分¶
- ⭐ 新颖性: 9/10 — MEEs的发现和分析是对噪声标签领域的重要贡献,反直觉但有充分实证
- ⭐ 实验充分度: 9/10 — CIFAR-10/100、CIFAR-N、WebVision、ImageNet-1k全覆盖,多种噪声类型
- ⭐ 写作质量: 8/10 — 动机铺垫充分,实验递进展开,可视化分析助力理解
- ⭐ 价值: 8/10 — 对噪声标签学习有直接价值,MEEs概念可能影响后续研究方向