Scaling Up Active Testing to Large Language Models¶

会议: NeurIPS 2025 arXiv: 2508.09093 代码: GitHub 领域: llm_nlp 关键词: active testing, LLM evaluation, risk estimation, surrogate model, label efficiency

一句话总结¶

通过三项关键简化——用 in-context learning 构建固定代理模型、使用小代理模型评估大目标模型、无需目标模型预测进行数据采集——将 active testing 扩展到 LLM，风险估计误差比随机采样降低 25%-80%。

研究背景与动机¶

LLM 评估日益昂贵：前沿模型越来越复杂，标注成本高且评估数据可能泄露到训练集，需要持续动态地收集新评估数据
Active testing 的瓶颈：现有方法需要反复梯度训练代理模型、对所有池化数据做代理/目标模型推理，计算成本限制了其在 LLM 上的应用
核心问题：如何在保持 active testing 有效性的同时大幅降低计算成本，使其可扩展到 70B 级 LLM？

方法详解¶

整体框架¶

Active testing 通过智能选择标注哪些测试输入来更准确地估计模型风险 \(R = \mathbb{E}[\ell(f(x), y)]\)。本文解决三个计算瓶颈：

关键设计 1：固定代理模型（解决训练瓶颈）¶

传统方法在每次获取新标签后重新训练代理模型。本文改为： - 用少量初始标注数据通过 in-context learning 一次性构建代理模型 - 之后保持代理模型固定不变 - 完全避免了循环内的梯度训练开销

关键设计 2：小代理模型（解决推理成本瓶颈）¶

代理模型可以显著小于目标模型： - 用 7B 模型作为代理评估 70B 目标模型 - 甚至用 Gemma3-4B 或 Phi-2 评估 Llama-2-70B - 旧模型（Llama 2）可有效作为新模型（Gemma 3）的代理

关键设计 3：无需目标模型预测（解决 N 次推理瓶颈）¶

用代理模型近似目标模型的预测： - 采集函数从交叉熵 \(H[\pi_m(y|x) \| p_f(y|x)]\) 简化为代理模型预测熵 \(H[\pi_m(y|x)]\) - 目标模型预测从 N 次减少到 M 次（M << N）

风险估计¶

使用 LURE（Levelled Unbiased Risk Estimator）进行无偏风险估计：

\[\hat{R}_{\text{LURE}} = \frac{1}{M}\sum_{m=1}^M v_m \ell(f(x_{i_m}), y_{i_m})\]

其中 \(v_m\) 是纠正非均匀采样的重要性权重。

Bootstrap 误差估计¶

提出 bootstrap 方法估计单次 active testing 运行中的风险估计误差，为实际部署提供置信区间。

实验关键数据¶

主实验：风险估计误差降低¶

数据集	目标模型	代理模型	相对误差降低
SST-2	70B-few	7B-few	~50%
FPB	70B-few	7B-few	~40%
HS	70B-few	7B-few	~60%
Subj	70B-few	7B-few	~30%
平均	-	-	25%-80%

跨模型代理¶

代理模型	目标模型	有效性
Llama-2-7B	Llama-2-70B	有效
Gemma3-4B	Llama-2-70B	有效
Phi-2	Llama-2-70B	有效
Llama-2-7B	Gemma3-4B	有效

采样 vs 插值方法¶

方法	鲁棒性	说明
LURE（采样）	高	对代理模型质量不敏感
ASE（插值）	低	对代理模型质量敏感，固定代理时退化

证实了固定代理时采样方法优于插值方法的预测。

Bootstrap 误差估计¶

95% 置信区间包含真实误差的覆盖率为 88%（K≥100 时达 ~94%）。

关键发现¶

不更新代理模型几乎不损失性能，但节省巨大计算成本
代理模型可比目标模型小 10 倍甚至更多
无需目标模型预测的采集函数（用预测熵替代交叉熵）效果出奇地好
标签错误会严重影响 active testing——强代理模型反而可能更差

亮点与洞察¶

三个瓶颈的优雅解决：每个简化都有理论动机和实验验证
逆直觉发现：小代理模型评估大目标模型，效果甚至更好
Bootstrap 诊断工具：为实际部署提供了判断 active testing 是否有效的方法
数据集筛选的副产品：active testing 可用于 dataset curation，选择子集评估模型

局限性 / 可改进方向¶

仅实验了文本分类任务，生成任务更复杂
标签错误情况下 active testing 可能失效（SST-2 案例）
对更具挑战性的 MMLU 数据集改进幅度较小
Bootstrap 估计缺乏理论收敛保证

评分¶

新颖性: ⭐⭐⭐⭐ 将已有方法扩展到 LLM，每个简化都合理但非根本创新
实验充分度: ⭐⭐⭐⭐ 多模型、多数据集、多设置，包含失败案例分析
写作质量: ⭐⭐⭐⭐⭐ 三个瓶颈的分析框架清晰，实验设计系统
价值: ⭐⭐⭐⭐ 对 LLM 评估效率提升有实用价值，尤其在标注昂贵的场景

Scaling Up Active Testing to Large Language Models¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计 1：固定代理模型（解决训练瓶颈）¶

关键设计 2：小代理模型（解决推理成本瓶颈）¶

关键设计 3：无需目标模型预测（解决 N 次推理瓶颈）¶

风险估计¶

Bootstrap 误差估计¶

实验关键数据¶

主实验：风险估计误差降低¶

跨模型代理¶

采样 vs 插值方法¶

Bootstrap 误差估计¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶