Enabling Fine-Grained Operating Points for Black-Box LLMs¶

会议: ICLR 2026
arXiv: 2510.17727
代码: 未公开（论文附录有代码片段）
领域: LLM NLP / 可靠性
关键词: 黑盒LLM, 操作点, 概率校准, PR曲线, 置信度估计

一句话总结¶

发现黑盒 LLM 的语言化概率仅输出 16-23 个唯一值（低基数问题），导致 PR/ROC 曲线粗糙无法精细调优；通过注入参数化噪声和可选的 MLP 校正，将唯一值从 16 个提升到 20,000+，在仅需 1-2 次 API 调用的条件下达到 20 次采样的性能。

领域现状：将 LLM 部署为分类器时，需要在精确率-召回率曲线上选择合适的操作点。常见做法是让 LLM 输出[0,1]概率值作为置信度。
现有痛点：LLM 存在严重的"取整偏差"——输出的概率值集中在 0, 0.5, 0.85, 0.9, 0.95 等少数值上（以 0 和 5 结尾的倾向），导致 PR/ROC 曲线只有十几个离散点，无法精细控制阈值。
核心矛盾：PR 曲线上的粗糙间隔意味着在部署时只能选择"要么高精确率低召回率，要么低精确率高召回率"，无法找到细粒度的折中点。
本文要解决什么？ 如何在不大幅增加 API 调用次数的前提下，让黑盒 LLM 的概率输出变得连续？
切入角度：向离散概率上加参数化噪声，本质上将离散分布"扩散"为连续分布。
核心idea一句话：加噪声打破取整偏差——在保持排序性能的前提下，将唯一概率值从16个扩展到20000+个。

三个变体：(1) Unsup——无监督加均匀噪声，(2) Sup-1call——有监督 MLP + 噪声，单次 API，(3) Sup-2call——有监督 MLP + 噪声，两次 API（T=0 和 T=1）。

无监督噪声（Ours-Unsup）:
做什么：在语言化概率上加均匀噪声，最大化噪声幅度同时保持性能
核心思路：max w s.t. sum(loss(y_i, clip(z_i*w + y_vrb_i))) <= sum(loss(y_i, y_vrb_i))，z ~ U(0,1)。本质上是在性能不退化的约束下找到最大的噪声幅度。
设计动机：无需任何标注数据，纯无监督。将基数从 16 提升到 5,614。
有监督噪声+MLP（Ours-Sup）:
做什么：学习一个校正函数 f 将离散概率映射到更好的校准概率，同时加噪声
核心思路：min_{theta_f, w} sum(loss(y_i, sigmoid(z_i/w + f(y_vrb; theta_f)))) + lambda*w，z ~ N(0,1)。f 是 2 层 ReLU MLP，同时学习校正和噪声幅度。
设计动机：MLP 校正解决了概率校准问题（偏高/偏低），噪声解决了基数问题（离散化）。

方法	API 调用	唯一值数	基数倍数
Prompt-Naive	1	10	1x
Sample-Class (20次)	20	97	10x
Ours-Unsup	1	5,614	561x
Ours-Sup-2call	2	20,607	2,061x

方法	API 调用	PRAUC	精确率粒度
Prompt-Naive	1	0.72	0.081
Sample-Prob	20	0.78	0.014
Ours-Sup-2call	2	0.79	0.016