Adaptive Prediction-Powered AutoEval with Reliability and Efficiency Guarantees¶

会议: NeurIPS 2025
arXiv: 2505.18659
代码: 无
领域: LLM评估 / 统计推断
关键词: LLM evaluation, prediction-powered inference, autoevaluator, e-value, sample efficiency

一句话总结¶

提出R-AutoEval+，通过e-value赌注算法自适应调整对合成数据（LLM评判器）的依赖权重，首次同时提供有限样本可靠性保证和可证明的采样效率改善，在GSM8K上比纯真实数据方法节省87个token。

背景与动机¶

用LLM作为评判器（autoevaluator/LLM-as-judge）可以低成本生成大量合成评估数据，减少方差，但引入了偏差——LLM评判不一定准确。Prediction-Powered Inference (PPI)可以结合真实数据和合成数据，但现有PPI方法缺乏采样效率保证，有时甚至不如仅用真实数据。需要一种方法在LLM评判器质量足够时受益，质量不足时自动退化到纯真实数据方法。

核心问题¶

如何在利用LLM评判器降低评估成本的同时，保证统计可靠性，并证明采样效率不会比纯真实数据方法差？

方法详解¶

整体框架¶

R-AutoEval+ = R-Eval（纯真实数据方法）+ 自适应PPI权重 - 当LLM评判器质量好时，增加对合成数据的依赖→更高效 - 当LLM评判器质量差时，自动减少依赖→退化为R-Eval→至少不比基线差

关键设计¶

e-value赌注算法：通过在线赌注协议（UP或WSR策略）自适应调整合成数据的权重，数学保证不可靠性风险有界
有限样本可靠性保证：不依赖渐近理论，在任意样本量下保证置信区间的覆盖率
可证明采样效率：当autoevaluator足够准确时，严格证明比R-Eval需要更少的真实数据
自动回退：当autoevaluator质量不足时，自动恢复为R-Eval

实验关键数据¶

任务	R-AutoEval+	R-Eval	R-AutoEval
TriviaQA量化	最优	次优	不可靠
GSM8K推理预算	节省87 tokens	基线	-
Instruct-Induction	可靠高效	可靠但低效	-

可靠性参数：α=0.1, δ=0.1
在所有场景中保持可靠性

消融实验要点¶

UP vs WSR赌注策略
候选因子S的影响：S≥2时最优
in-context样本数对autoevaluator质量的影响

亮点¶

首个双保证方法：同时有有限样本可靠性和采样效率保证
自适应退化：最坏情况退化为R-Eval而非更差
理论-实践统一：e-value赌注的理论框架在LLM评估中的巧妙应用
实用场景覆盖：LLM量化评估、prompt选择、推理预算分配

局限性 / 可改进方向¶

需要真实世界未标注数据
效率保证仅在高可靠性水平(1-δ)下成立
候选因子集固定

评分¶

新颖性: ⭐⭐⭐⭐ e-value应用到LLM评估是新颖的交叉
实验充分度: ⭐⭐⭐⭐ 三个不同场景验证
写作质量: ⭐⭐⭐⭐ 理论保证清晰
价值: ⭐⭐⭐⭐ 对LLM自动评估的可靠性有重要意义