Enabling Fine-Grained Operating Points for Black-Box LLMs¶
会议: ICLR 2026
arXiv: 2510.17727
代码: 未公开(论文附录有代码片段)
领域: LLM NLP / 可靠性
关键词: 黑盒LLM, 操作点, 概率校准, PR曲线, 置信度估计
一句话总结¶
发现黑盒 LLM 的语言化概率仅输出 16-23 个唯一值(低基数问题),导致 PR/ROC 曲线粗糙无法精细调优;通过注入参数化噪声和可选的 MLP 校正,将唯一值从 16 个提升到 20,000+,在仅需 1-2 次 API 调用的条件下达到 20 次采样的性能。
研究背景与动机¶
- 领域现状:将 LLM 部署为分类器时,需要在精确率-召回率曲线上选择合适的操作点。常见做法是让 LLM 输出[0,1]概率值作为置信度。
- 现有痛点:LLM 存在严重的"取整偏差"——输出的概率值集中在 0, 0.5, 0.85, 0.9, 0.95 等少数值上(以 0 和 5 结尾的倾向),导致 PR/ROC 曲线只有十几个离散点,无法精细控制阈值。
- 核心矛盾:PR 曲线上的粗糙间隔意味着在部署时只能选择"要么高精确率低召回率,要么低精确率高召回率",无法找到细粒度的折中点。
- 本文要解决什么? 如何在不大幅增加 API 调用次数的前提下,让黑盒 LLM 的概率输出变得连续?
- 切入角度:向离散概率上加参数化噪声,本质上将离散分布"扩散"为连续分布。
- 核心idea一句话:加噪声打破取整偏差——在保持排序性能的前提下,将唯一概率值从16个扩展到20000+个。
方法详解¶
整体框架¶
三个变体:(1) Unsup——无监督加均匀噪声,(2) Sup-1call——有监督 MLP + 噪声,单次 API,(3) Sup-2call——有监督 MLP + 噪声,两次 API(T=0 和 T=1)。
关键设计¶
- 无监督噪声(Ours-Unsup):
- 做什么:在语言化概率上加均匀噪声,最大化噪声幅度同时保持性能
- 核心思路:max w s.t. sum(loss(y_i, clip(z_i*w + y_vrb_i))) <= sum(loss(y_i, y_vrb_i)),z ~ U(0,1)。本质上是在性能不退化的约束下找到最大的噪声幅度。
-
设计动机:无需任何标注数据,纯无监督。将基数从 16 提升到 5,614。
-
有监督噪声+MLP(Ours-Sup):
- 做什么:学习一个校正函数 f 将离散概率映射到更好的校准概率,同时加噪声
- 核心思路:min_{theta_f, w} sum(loss(y_i, sigmoid(z_i/w + f(y_vrb; theta_f)))) + lambda*w,z ~ N(0,1)。f 是 2 层 ReLU MLP,同时学习校正和噪声幅度。
- 设计动机:MLP 校正解决了概率校准问题(偏高/偏低),噪声解决了基数问题(离散化)。
实验关键数据¶
基数提升¶
| 方法 | API 调用 | 唯一值数 | 基数倍数 |
|---|---|---|---|
| Prompt-Naive | 1 | 10 | 1x |
| Sample-Class (20次) | 20 | 97 | 10x |
| Ours-Unsup | 1 | 5,614 | 561x |
| Ours-Sup-2call | 2 | 20,607 | 2,061x |
性能对比(11 数据集联合)¶
| 方法 | API 调用 | PRAUC | 精确率粒度 |
|---|---|---|---|
| Prompt-Naive | 1 | 0.72 | 0.081 |
| Sample-Prob | 20 | 0.78 | 0.014 |
| Ours-Sup-2call | 2 | 0.79 | 0.016 |
关键发现¶
- Sup-2call 用 2 次 API 调用超越了 20 次采样的性能(PRAUC 0.79 vs 0.78)
- 噪声是必要的——纯 MLP 校正(无噪声)无法解决基数问题
- 在 11 个不同数据集上一致有效,从情感分类到事实验证
亮点与洞察¶
- 从工程问题出发:发现 LLM 概率输出的取整偏差并量化其影响(16-23 个唯一值),这本身就是有价值的观察。
- 噪声作为正则化:加噪声不是降低信号质量,反而是将过度离散化的信号"平滑"到连续空间,提升了下游决策的灵活性。
- 成本效益极高:2 次 API 调用 > 20 次采样,节省 90% 的 API 成本。
局限性 / 可改进方向¶
- 有监督变体需要标注数据训练 MLP,冷启动场景不适用
- 仅在 Claude 和部分开源模型上验证,不同 LLM 的取整偏差可能不同
- 噪声幅度和 MLP 结构是固定的,自适应方案可能更好
相关工作与启发¶
- vs 标准采样: 多次采样(20次)提升基数但成本线性增长,本文用 1-2 次调用达到相当效果
- vs 概率校准: Platt Scaling 等方法校准概率但不解决基数问题,本文同时解决两者
评分¶
- 新颖性: ⭐⭐⭐⭐ 问题发现新颖(取整偏差),解决方案直观有效
- 实验充分度: ⭐⭐⭐⭐ 11个数据集 + 多种基线 + 消融
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,图表丰富
- 价值: ⭐⭐⭐⭐⭐ 对LLM部署有直接实用价值