Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry¶

会议: NeurIPS 2025 (Workshop)
arXiv: 2510.09740
代码: https://github.com/Vision-IIITD/NCAL
领域: 主动学习 / 可靠机器学习
关键词: 主动学习, Neural Collapse, 特征几何, 噪声标签鲁棒, OOD泛化

一句话总结¶

提出 NCAL-R，利用深度网络训练后期涌现的 Neural Collapse 几何结构，设计类均值对齐扰动（CMAP）和特征波动（FF）两个评分指标来选择样本，使主动学习在标签噪声和分布偏移下更加可靠，在 ImageNet-100 和 CIFAR-100 上一致优于传统 AL 基线。

研究背景与动机¶

领域现状：主动学习（Active Learning）通过优先选择最有信息量的样本来减少标注成本，主流策略包括基于不确定性（uncertainty）、基于多样性（diversity）和基于代表性（representativeness）的方法。

现有痛点：传统 AL 方法在理想条件下有效，但在现实场景中面临三重挑战：(1) 标签噪声——标注者会犯错，AL 启发式方法（尤其是不确定性方法）倾向反复选择错标样本，放大错误；(2) 分布偏移——训练数据与测试数据分布不一致时，传统方法的选择策略失效；(3) 跨数据集/架构迁移性差——很多方法需要针对特定任务调参。

核心矛盾：不确定性高的样本可能确实信息量大，但也可能只是被错标了或属于 OOD 数据——传统方法无法区分"有价值的不确定性"和"有害的不确定性"。

本文目标 如何在标签不可靠和分布可能偏移的条件下，选择既能强化类间分离度又能暴露真正模糊区域的样本？

切入角度：训练后期（terminal phase）深度网络的特征会出现 Neural Collapse (NC) 现象——类内特征坍缩到均值、类均值排列成等角紧框架。这种结构化的几何信息提供了超越传统启发式的选择信号：能扰动类间几何结构的样本（CMAP 高）是有价值的，而特征在训练过程中剧烈波动的样本（FF 高）暗示真正的歧义性。

核心 idea：用 Neural Collapse 的几何结构来识别"对特征空间有结构性影响"的样本，替代传统的不确定性/多样性启发式。

方法详解¶

整体框架¶

NCAL-R 在每个 AL 轮次中，先在当前标注集上训练模型至 NC 阶段，然后对未标注池中每个样本计算 CMAP 和 FF 两个分数，标准化后取平均作为综合评分，选取 top-k 样本进行标注。无需辅助网络、伪标签或任务特定调参，可应用于任何能提取特征嵌入的骨干网络。

关键设计¶

类均值对齐扰动 (CMAP):
- 功能：量化候选样本对类间几何结构的扰动程度
- 核心思路：定义类均值对齐 CMA 为所有类均值对之间的余弦相似度平均值。对于候选样本 \(x\)（模型预测为类 \(c\)），假设将其加入标注集后更新类均值 \(\tilde{\mu}_t^c\)，计算 CMA 的变化量 \(\mathrm{CMAP}(x) = \mathrm{CMA}(\mathcal{L}_t \cup x) - \mathrm{CMA}(\mathcal{L}_t)\)。经推导简化为一个点积：\((\bar{\tilde{\mu}}_t^c - \bar{\mu}_t^c)^\top (M_t - \bar{\mu}_t^c)\)，计算高效。高 CMAP 意味着该样本会显著改变类均值间的相互关系，标注它有助于减小类均值间的相关性（降低泛化误差上界）
- 设计动机：根据 Jin et al. (2020) 的理论，泛化误差上界与权重相关性有关，而 NC 条件下类均值与分类器权重对齐，因此最小化 CMA 等价于最小化泛化误差的一个代理
特征波动 (FF):
- 功能：捕捉样本在训练过程中表示的不稳定性
- 核心思路：给定训练终期的多个检查点 \(\{\theta_t\}_{t=T_i}^{T_f}\)，统计样本 \(x\) 在连续检查点间预测标签翻转的次数 \(\mathrm{FF}(x) = \sum_{t=T_i+1}^{T_f} \mathbf{1}[\hat{y}_t(x) \neq \hat{y}_{t-1}(x)]\)。高 FF 表示即使在大部分特征已稳定的 NC 阶段，该样本的预测仍在反复跳变——这标识了真正的决策边界样本
- 设计动机：传统不确定性指标（如熵）是某一时刻的快照，而 FF 是跨时间的稳定性度量，更能区分"模型暂时不确定"（FF 低）和"本质上处于类边界"（FF 高）
联合采集策略:
- 功能：综合结构性影响和预测不稳定性两个维度
- 核心思路：分别对 CMAP 和 FF 按均值和标准差标准化后取平均 \(\text{Score}(x) = (\text{CMAP}(x) + \text{FF}(x))/2\)，选择分数最高的 k 个样本。这保证选出的样本既对特征几何有结构性影响、又处于真正的歧义区域
- 设计动机：CMAP 侧重类间结构优化，FF 侧重歧义发现，两者互补

实验关键数据¶

主实验（CIFAR-10, OOD 检测 AUROC, ImageNet-100 训练）¶

方法	10%	15%	20%	25%	30%	35%
Random	77.18	80.57	84.13	85.45	86.89	87.82
CoreSet	81.56	83.73	85.66	87.10	88.29	88.95
CDAL	81.78	84.28	85.90	86.34	87.98	88.92
NCAL	82.49	85.55	87.89	89.15	90.53	91.53

OOD 泛化（30% 标签预算, ImageNet-100 训练后线性探测）¶

方法	ImgNet-R	CIFAR100	Flowers	NINCO	CUB	Avg
Random	18.06	41.64	58.69	64.23	37.84	46.95
CDAL	17.56	41.98	58.13	65.87	38.53	47.21
NCAL	19.27	43.78	60.87	67.66	40.01	48.98
100% data	20.01	45.31	61.77	69.90	42.29	50.87

GCD（广义类别发现, 60-40 已知-新类划分）¶

方法	All Classes	Old Classes	New Classes
Random	33.20	50.34	20.35
CoreSet	32.23	49.98	18.92
NCAL	35.07	51.95	23.05

关键发现¶

NCAL 在所有标签预算下（10%-35%）都一致优于基线，且优势在低预算时更明显
OOD 泛化提升约 2% 平均值，说明 NC 引导的特征空间确实更具迁移性
新类发现准确率提升 +2.1 点（vs 最佳基线），表明 NCAL 的特征空间能自然适应新类别
类间距离分析显示 NCAL 的平均类间距为 15.944（vs Random 15.114），更好的类间分离
长尾分布下 NCAL 提升约 3%（45.15% vs 42.30%），表明几何引导对不平衡数据也有效

亮点与洞察¶

将 Neural Collapse 从一个"解释性理论"转化为"实用工具"：NC 过去主要用于理解训练动态，本文首次将其系统地应用于 AL 的样本选择，开辟了 NC 的实用化方向。这个思路可以迁移到课程学习、数据选择等类似场景
CMAP 的推导巧妙：通过 NC 条件下类均值 ≈ 分类器权重的关系，将泛化误差上界转化为特征空间的几何量度，再进一步简化为一个高效的点积计算。理论优雅且计算实用
无需额外组件的轻量方案：不需要辅助网络、伪标签或特定架构，只需要模型的特征嵌入和训练检查点

局限与展望¶

Workshop 论文，实验规模偏小（ResNet-18 骨干，最大数据集 ImageNet-100），在大规模模型和数据集上的表现未知
FF 需要存储多个训练检查点，存储和计算开销随模型规模和检查点数量增长
NC 理论要求训练至接近零误差，但实际中模型可能不会完全达到 NC 状态，此时 CMAP 的理论保证可能弱化
没有与更新的 AL 方法（如 BADGE、BAIT）对比

评分¶

新颖性: ⭐⭐⭐⭐ Neural Collapse 指导 AL 是新颖的切入点，理论推导优雅
实验充分度: ⭐⭐⭐ Workshop 论文篇幅限制，实验规模偏小，缺少大模型验证
写作质量: ⭐⭐⭐⭐ 简洁清晰，公式推导紧凑
价值: ⭐⭐⭐⭐ 开辟了 NC 在 AL 中的应用方向，CMAP+FF 的设计方法论有启发性