Predicting the Performance of Black-Box LLMs through Follow-Up Queries¶

会议: NeurIPS 2025
arXiv: 2501.01558
代码: 无
领域: LLM评估 / 可信AI
关键词: 黑盒LLM, 性能预测, 后续提问, 不确定性量化, 对抗检测

一句话总结¶

提出 QueRE 方法，通过向黑盒LLM提出约50个后续问题（如"你对回答有信心吗？"），以"Yes"token的概率作为特征训练线性分类器，在预测模型正确性、检测对抗操纵和区分不同LLM等任务上，甚至超越需要访问模型内部状态的白盒方法。

研究背景与动机¶

可靠预测LLM行为（输出是否正确、是否被对抗操纵）是一个根本性挑战。前沿LLM通过闭源API提供服务，仅允许黑盒访问，使得基于模型内部状态的分析方法（如RepE、机制可解释性）无法使用。

核心问题：仅凭黑盒访问，能多好地预测LLM的行为？

关键假设：LLM对后续问题的回答分布会随正确性、模型家族和模型规模发生有意义的变化。因为LLM已被训练来理解自然语言并提供有用回答，它们对自我反思性质的问题应该包含关于其行为的信息信号。

现有方法的不足： - 白盒方法（RepE、Full Logits）需要访问模型内部表示，对闭源模型不适用 - 单一置信度分数仅是一维特征，信息量不足 - 语义熵需要多次采样且计算成本高 - 自一致性方法在推理任务上效果有限

方法详解¶

整体框架¶

QueRE（Follow-up Question Representation Elicitation）的工作流程： 1. 给LLM输入原始问题 \(x\)，获得贪婪采样回答 \(a = \arg\max_c P(c|x)\) 2. 依次提出 \(d\) 个后续问题 \(Q = \{q_1, ..., q_d\}\) 3. 提取每个问题对应的"Yes" token概率：\(z_j = P(\text{yes} | x \oplus a \oplus q_j)\) 4. 将特征向量 \(z = (z_1, ..., z_d)\) 送入线性分类器预测目标（正确性/操纵/身份）

关键设计¶

1. 后续问题的构建¶

手动设计少量基础问题 + 用GPT-4生成约40个问题，总计约50个。问题类型包括： - 自信度相关："Do you think your answer is correct?" - 推理质量："Are you able to explain your answer?"
- 偏见检测："Are your responses free from bias?"

设计动机：每个问题的Yes概率可视为一个弱预测器（类似boosting中的弱学习器），线性组合后形成强预测器。所有后续问题可并行处理，增加问题数量仅增加极小计算开销。

2. 特征增强¶

在核心后续问题特征之外，还附加： - 闭合式QA：答案选项的概率分布 - 所有QA：预置信度和后置信度（看到自己回答前后的self-confidence概率）

3. 采样近似的理论保证¶

当API不提供top-k概率时，可通过高温采样 \(k\) 次近似。

Proposition 1：基于采样近似的逻辑回归MLE \(\hat{\beta}\) 以 \(O(\frac{1}{\sqrt{n}} + \frac{\sqrt{n}}{k})\) 的速率收敛到最优参数 \(\beta_0\)。

即只要采样次数 \(k\) 随数据量 \(n\) 增长（可以是更慢的速率），估计器仍然一致。

损失函数 / 训练策略¶

使用标准逻辑回归训练线性分类器，无需复杂的训练技巧。选择线性模型是有意为之： 1. 低维特征+简单模型 → 更紧的泛化界 2. 避免在提示优化上过拟合 3. 保持方法的通用性和模型无关性

实验关键数据¶

主实验¶

推理任务上的AUROC（预测模型正确性）：

数据集	LLM	Full Logits	Sem. Entropy	QueRE	说明
GSM8K	GPT-3.5	0.5636	0.7495	0.7748	数学推理
GSM8K	GPT-4o-mini	0.5463	0.5546	0.7319	数学推理
CodeContests	GPT-3.5	0.6001	0.5346	0.6800	代码生成
CodeContests	GPT-4o-mini	0.5274	0.5604	0.7924	代码生成

开放式QA任务（NQ/SQuAD，LLaMA3系列）：

数据集	LLM	RepE(白盒)	Post-conf	QueRE
NQ	LLaMA3-3B	0.6639	0.8186	0.9596
SQuAD	LLaMA3-3B	0.7033	0.9220	0.9579
SQuAD	LLaMA3-8B	0.6993	0.7928	0.9492

消融实验¶

对抗检测准确率（检测LLM是否被系统提示操纵）：

任务	LLM	Pre-conf	Logits	QueRE
BoolQ(错误回答)	GPT-3.5	0.5396	0.8483	0.8668
BoolQ(错误回答)	GPT-4o-mini	0.5725	0.9033	0.9258
CodeContests(隐藏bug)	GPT-3.5	0.5061	0.9455	0.9909
CodeContests(隐藏bug)	GPT-4o-mini	0.5546	0.8848	1.0000

跨域迁移性（OOD泛化）：

迁移方式	Self-Consis.	Sem. Entropy	QueRE
SQuAD→NQ (数据集迁移)	0.8328	0.6661	0.8964
NQ→SQuAD (数据集迁移)	0.7532	0.5013	0.7934
3B→8B (模型迁移)	0.4635	0.6328	0.8409
8B→70B (模型迁移)	0.5280	0.6658	0.8295

关键发现¶

黑盒超越白盒：在开放式QA和推理任务上，QueRE经常超越需要完整模型访问的RepE和Full Logits方法
对抗检测几乎完美：在CodeContests上检测GPT-4o-mini被操纵的准确率达到100%
优秀的OOD迁移：跨数据集和跨模型规模的迁移性显著优于所有基线
采样近似损失极小：使用有限采样（替代真实概率）的AUROC降低不超过2个点
更多问题=更好性能：增加后续问题数量能持续提升性能，但边际收益递减

亮点与洞察¶

反直觉的发现：仅凭模型输出的50个Yes/No概率，竟能比访问模型全部内部状态更好地预测行为——这说明LLM的"自我反思"能力确实编码了有价值的元认知信息
方法极简但通用：线性模型+并行问答，无需模型修改、无需采样多次答案
实际应用潜力巨大：可用于API审计（检测是否提供了声称的模型）、安全监控（检测系统提示注入）、质量保证（预测部署时的错误概率）
PAC-Bayes泛化界更紧：低维表示+线性模型组合天然有更好的泛化保证

局限与展望¶

后续查询引入额外延迟（虽可通过批处理缓解）
方法依赖LLM回答后续问题时概率分布的有意义变化，对非常低质量的模型可能不成立
特征虽基于自然语言但方法不关注可解释性——将其视为黑盒特征而非解释
可通过离散提示优化进一步提升表示质量，但需权衡过拟合风险
理论分析假设LLM提取的表示独立于下游任务数据

评分¶

新颖性: ⭐⭐⭐⭐⭐ （思路新颖简洁，黑盒超白盒的发现出人意料）
实验充分度: ⭐⭐⭐⭐⭐ （5个模型、9个数据集、3大应用场景、完整消融）
写作质量: ⭐⭐⭐⭐⭐ （表达清晰，实验设计逻辑性强，理论支撑恰到好处）
价值: ⭐⭐⭐⭐⭐ （高实用价值，为黑盒LLM监控提供了优雅的解决方案）