Evaluating Multiple Models Using Labeled and Unlabeled Data¶

会议: NeurIPS 2025
arXiv: 2501.11866
代码: 待确认
领域: llm_nlp
关键词: semi-supervised evaluation, model evaluation, mixture model, unlabeled data, classifier performance

一句话总结¶

提出 SSME (Semi-Supervised Model Evaluation)，利用少量标注数据和大量未标注数据，通过半监督混合模型估计多个分类器联合分布 \(P(y, \mathbf{s})\)，实现精确的分类器性能评估，误差降低至仅用标注数据的 1/5。

研究背景与动机¶

机器学习评估的核心困境：大规模标注数据是评估的基础，但在许多领域中获取标注数据成本极高甚至不可行（如医疗、内容审核、分子性质预测等）。与此同时，未标注数据通常非常充裕。

现代 ML 实践使得问题更加突出：模型中心（如 HuggingFace）提供了海量现成分类器，实践者面对大量训练好的模型却缺少足够的标注数据来评估它们。

现有方法的局限： - 仅利用标注数据：样本量小导致评估方差大 - 单分类器方法（如 SPE、Active-Testing）：没有利用多分类器之间的互信息 - Dawid-Skene 等标注者模型：仅使用离散标注，丢弃了概率预测信息 - AutoEval / Pseudo-Labeling：仅从标注数据学习映射再外推，忽略了联合学习的优势

SSME 是首个同时利用三个信息源的方法：(i) 多个分类器、(ii) 连续概率分数、(iii) 未标注数据。

方法详解¶

整体框架¶

SSME 分两步：

Step 1: 估计联合分布 \(P(y, \mathbf{s})\)

使用半监督混合模型，每个混合成分对应一个真实类别。联合利用标注数据和未标注数据最大化对数似然：

\[\underset{\theta}{\text{argmax}}\left[\sum_{i=1}^{n_\ell}\log[P_\theta(\mathbf{s}_i|y_i)P_\theta(y_i)] + \lambda_U\sum_{j=1}^{n_u}\log\sum_{k=1}^{K}[P_\theta(\mathbf{s}_j|y_j=k)P_\theta(y_j=k)]\right]\]

其中 \(\lambda_U\) 控制未标注数据权重（固定为 1），\(\mathbf{s}_i = [f_1(x_i), \ldots, f_M(x_i)]\) 为所有分类器的拼接分数。

Step 2: 利用 \(P(y, \mathbf{s})\) 估计分类器性能

拟合密度后，通过 \(P_\theta(y|\mathbf{s})\) 为未标注样本采样标签，然后计算任意标准指标（Accuracy、AUC、AUPRC、ECE 等）。

关键设计¶

加性对数比变换 (Additive Log-Ratio Transform)：分类器输出为概率单纯形上的值，存在边界偏差问题。SSME 通过 ALR 变换将其映射到无界实数空间 \(\mathbb{R}^{K-1}\)，使密度估计更准确。

核密度估计 (KDE)：使用高斯核参数化类条件分布 \(P_\theta(\mathbf{s}|y)\)，带宽通过改进的 Sheather-Jones 算法估计。KDE 不做参数化假设，适合分类器预测分布多样性。

EM 优化：1000 轮迭代。E 步计算每个数据点属于各成分的后验 \(\gamma_{ik}\)（标注数据直接固定为真实标签），M 步更新类先验和密度参数。

损失函数 / 训练策略¶

理论分析在二元高斯混合模型设定下推导误差界：

\[|\text{AUC}_k - \widehat{\text{AUC}}_k| \leq \Phi\left(\frac{\mathbf{c}_k}{\sqrt{2}}\right) - \Phi\left(\frac{\mathbf{c}_k - \epsilon_\mathbf{c}}{\sqrt{2}}\right)\]

其中 \(\epsilon_\mathbf{c} \lesssim \frac{1}{p}\left(\sqrt{\frac{d}{\|c\|^2 n_u}} + \|c\|e^{-\frac{1}{2}n_l\|c\|^2(\cdot)}\right)\)

关键含义： - \(n_u\) 增加 → 误差下降（未标注数据有用） - \(\|c\|\) 增大 → 误差下降（分类器越准估计越好） - \(d\) 增加（更多分类器）→ 若分离度增长快于维度代价，误差下降

实验关键数据¶

主实验¶

实验设置：5 个二分类数据集（MIMIC-IV 三个任务、CivilComments、OGB-SARS-CoV、MultiNLI、AG News），20/50/100 标注样本 + 1000 未标注样本，与 8 个基线对比。

核心结果（\(n_\ell=20, n_u=1000\)）：

方法	相对标注数据的误差降低倍数
SSME (本文)	5.1×
次优基线	2.4×
Labeled only	1.0× (基线)

分指标表现： - Accuracy 估计：SSME 误差降低 5.6×，次优方法 2.0× - ECE 估计：SSME 误差降低 7.2×（最大优势） - AUC 估计：SSME 误差降低 2.9×，次优 2.6× - AUPRC 估计：SSME 误差降低 2.2×（最小优势）

绝对误差：20 标注 + 1000 未标注，SSME 估计 accuracy 误差仅 1.5 个百分点（次优 3.4 百分点）。

消融实验¶

SSME-M（边际拟合）：仅对单个分类器拟合边际 \(P(y|s)\)，效果明显不如联合拟合。证实了多分类器提供互补信息。

有效样本量 (ESS)：20 标注 + 1000 未标注下，SSME 在 ECE 估计上等价于 539 个标注样本；次优方法仅等价于 110 个。

标注数据量影响：20 → 50 → 100 标注样本时，SSME 相对优势从 5.6× 降至 3.0× 降至 1.6×，但始终保持领先。

关键发现¶

SSME 在 60 个（数据集 × 指标 × 标注量）组合中的 51 个上达到最优或持平
ECE 估计场景受益最大——因为 ECE 需要分桶统计，少量标注下方差极大
联合拟合多分类器远优于逐个拟合（SSME vs SSME-M）
理论预测的三个趋势在真实实验中全部得到验证
Case Study：LLM 分类器评估误差降低 2.3×；子群体评估中性别维度误差降低 5.3×

亮点与洞察¶

统一框架：首次将多分类器、连续概率分数、未标注数据三个信息源统一利用
理论与实践匹配：误差界推导清晰，并在实验中得到验证
强实用性：在仅 20 个标注样本下就能获得接近 500+ 标注样本的评估精度
广泛适用性：跨医疗、NLP、化学、内容审核等多领域验证
公平性应用：可直接用于子群体性能评估，对算法公平性审查有价值

局限性 / 可改进方向¶

KDE 在高维空间（分类器数量多 / 类别数多）可能效果下降
假设标注和未标注数据同分布——分布偏移场景下未验证
\(\lambda_U = 1\) 的选择是否最优未做深入探索
仅关注分类任务，未扩展到回归或生成任务的评估
核密度估计的计算效率在超大规模场景下可能成为瓶颈

评分¶

创新性：⭐⭐⭐⭐ — 巧妙整合三个信息源，解决实际问题
理论深度：⭐⭐⭐⭐⭐ — 完整的误差界推导和 UL+ 分析
实验充分度：⭐⭐⭐⭐⭐ — 5 个数据集、8 个基线、多指标多场景
实用性：⭐⭐⭐⭐⭐ — 标注稀缺场景价值极大
综合评价：8.5/10