STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transitive Evaluation Model¶

会议: AAAI 2026
arXiv: 2508.12096
代码: 未公开
领域: LLM评估 / 模型能力定位
关键词: LLM评估, 显著转换样本, 转换索引, 基准偏差, 数据污染, 缩放定律

一句话总结¶

提出 STEM 框架，通过识别同架构不同规模模型间的"显著转换样本"(STS)构建轻量级评估子集，实现对未知 LLM 能力的高效相对定位，在 100 样本下达到 100% 定位准确率，远超随机采样和贝叶斯方法。

背景与动机¶

基准可靠性下降：LLM 在 MMLU、GPQA、GSM8K 等标准基准上频繁刷新 SOTA，但用户实际体验与基准分数之间存在明显差距。数据污染（训练中记忆基准样本）导致分数虚高，无法反映真实推理能力。
缩放异常现象：Qwen3 系列模型在 GPQA 上出现反常表现——8B 模型得分 44.44 反而高于 14B 的 39.90 和 30B-A3B 的 43.94，说明模型规模增大不一定带来一致的能力提升。
基准结构偏差：现有基准样本难度分布极化严重。MMLU 中简单样本占 52.81%，GSM8K 占 59.59%；而 GPQA 困难样本占 52.53%，SuperGPQA 占 55.94%。中间难度样本比例低（GPQA 仅 20.07%，GSM8K 仅 34.80%），导致基准对模型能力差异的区分度不足。
评估成本高：全基准评估计算开销大，随机采样方差高且不稳定，亟需轻量且可靠的评估方案。

方法详解¶

核心思路¶

STEM 的核心观察是：随着模型参数量递增，大多数样本呈现可预测的能力转换——小模型答错、大模型答对。通过筛选出满足单调转换条件的样本，构建难度均衡的评估子集，用于推断未知模型在已知模型家族中的能力位置。

设计一：推断结果向量 (IRV) 与显著转换样本 (STS)¶

对每个样本定义推断结果向量 \(\text{IRV} = \{v_1, v_2, \dots, v_n\}\)，其中 \(v_i \in \{-1, 0, 1\}\) 分别表示模型 \(M_i\) 的推断失败、答错、答对。模型序列按参数量严格递增排列 \(M_1 \prec M_2 \prec \cdots \prec M_n\)。

显著转换样本 (STS) 需满足两个条件：

单调性：存在唯一转换点 \(k\)，使得 \(\forall i < k, v_i = 0\)（所有更小模型答错），\(\forall i' > k, v_{i'} = 1\)（所有更大模型答对）
唯一性：IRV 中仅有一次 0→1 转换，不存在反复波动

例如 \(\text{IRV} = (0,0,0,1,1,1,1,1)\) 表示转换点在索引 3（第 4 个模型首次答对）。而异常 IRV 如 \((0,0,1,0,1,1,0,1)\) 表明存在数据污染，被过滤排除。

每个 STS 被赋予转换索引 (TI) \(k\)，代表能稳定答对该样本的最小模型规模，实际反映了样本的难度层级。

设计二：基准区分度加权与能力参考分数¶

为建立 LLM 能力的统一参考排名，论文设计了基准区分度指标。第 \(j\) 个基准的区分度 \(D_j\) 定义为：

\[D_j = \sigma_{S_j} \times \rho_{S_j, \log(P)}\]

其中 \(\sigma_{S_j}\) 是各模型在该基准上分数的标准差（反映区分能力），\(\rho_{S_j, \log(P)}\) 是分数与模型参数量对数的 Pearson 相关系数（衡量与缩放定律的一致性）。基于区分度计算权重：

\[w_j = \frac{D_j}{\sum_{j=1}^{m} D_j}\]

最终模型能力参考分数为各基准得分的加权聚合。该设计避免了简单平均忽略基准信息量差异的问题。

设计三：结构化评估协议¶

STS 池构建：从完整基准中提取所有 STS，按 TI 值 \(k \in \{1, 2, \dots, n+1\}\) 分类（\(k=n+1\) 表示最大模型也无法答对）
均衡子集采样：从每个 TI 层级中等量随机采样 STS，确保评估子集覆盖全部难度阈值且样本总量可控
能力边界推断：对未知模型在均衡子集上评估，其能力边界定义为准确率开始显著下降的最低 TI 值

实验¶

实验设置¶

参考模型族：Qwen3 系列 8 个模型（0.6B → 235B-A22B），覆盖从小到大的完整参数范围
外部测试模型：LLaMA3-8B 和 GLM4-9B（不同架构，能力接近）
基准：MMLU, MMLU-Pro, SuperGPQA, GPQA, GSM8K, MATH（6 个）
对比方法：随机采样、贝叶斯方法 (Xiao et al. 2025)、STEM
设置：100 样本，重复 100 次；零样本非 CoT 策略；FP32 精度

表1：各基准区分度¶

基准	MMLU	MMLU-Pro	SuperGPQA	GPQA	GSM8K	MATH
区分度 \(D\)	10.36	13.13	8.75	7.04	9.57	10.77

MMLU-Pro 区分度最高 (13.13)，GPQA 最低 (7.04)，说明 GPQA 对不同能力模型的区分效果较差。

表2：三种评估策略的定位准确率¶

模型	随机采样	贝叶斯	STEM
LLaMA3-8B	100%	0%	100%
GLM4-9B	88%	0%	100%

随机采样：平均分数与真实排名一致，但方差大。GLM4-9B 有 12% 的试验中分数超过 Qwen3-4B 的参考分，导致定位错误
贝叶斯方法：系统性高估两个模型能力。99.9% 概率将 LLaMA3-8B 定位于 Qwen3-1.7B ~ Qwen3-4B 之间（真实应在 Qwen3-0.6B ~ Qwen3-1.7B）；75.1% 概率将 GLM4-9B 定位于 Qwen3-8B ~ Qwen3-14B 之间（真实应在 Qwen3-1.7B ~ Qwen3-4B），100 次试验准确率 0%
STEM：通过 TI 维度的得分急剧下降精准定位，100 次试验均正确

表3：各基准异常样本比例¶

基准	GPQA	SuperGPQA	MMLU-Pro	MATH	MMLU	GSM8K
异常比例	65.85%	53.20%	47.93%	41.94%	37.72%	13.16%

GPQA 异常率最高，近 2/3 样本不满足单调转换条件，暗示严重的数据污染；GSM8K 最"干净"，仅 13.16% 异常。

主要发现¶

现有基准存在严重结构偏差：样本难度分布两极化，简单和困难样本过多，导致对模型能力差异不敏感
数据污染广泛存在：GPQA 中 65.85% 的样本表现为非单调 IRV，表明小模型答对是因为记忆而非推理
STS 具有跨架构迁移性：基于 Qwen3 构建的 STS 池能准确定位不同架构的 LLaMA3-8B 和 GLM4-9B
STEM 用 100 个样本即可实现 100% 定位准确率，而随机采样存在 12% 误判风险，贝叶斯方法完全失败
STEM 能区分能力极其接近的模型：LLaMA3-8B (53.90) 和 GLM4-9B (56.88) 参考分仅差 3 分，但 STEM 能可靠地将它们定位到不同区间

亮点¶

理念新颖：从样本层面分析能力转换模式，定义 STS 和 TI 概念，将评估问题转化为结构化的难度分级定位问题
极高效率：仅需 100 个精选样本，一次性离线构建 STS 池后可重复使用，显著降低评估成本
数据污染检测副产品：IRV 分析天然提供了样本级数据污染检测能力，揭示了基准的结构性缺陷
方法简洁可解释：不依赖复杂统计模型，转换索引直接对应模型能力阈值，评估结果直观易懂

局限性¶

依赖规模控制的参考模型族：需要同架构、多参数规模的模型系列（如 Qwen3），目前满足条件的模型族稀缺，限制了框架的广泛适用性
STS 池是静态的：随着新模型发布，STS 池需要周期性重新校准，计算成本不可忽略
仅验证了选择题/判断题类基准：未扩展到生成式任务（如摘要、对话），适用范围有限
"能力"的定义被基准绑定：模型能力的度量与选用的基准强耦合，而非独立的能力指标
外部模型验证有限：仅测试了 LLaMA3-8B 和 GLM4-9B 两个模型，迁移性结论的泛化性有待更充分验证

评分¶

⭐⭐⭐⭐ — 方法新颖且实验设计合理，仅用 100 样本实现精准模型定位，但主要受限于参考模型族依赖和验证规模偏小。