跳转至

Enabling Fine-Grained Operating Points for Black-Box LLMs

会议: ICLR 2026
arXiv: 2510.17727
代码: 未公开(论文附录有代码片段)
领域: LLM NLP / 可靠性
关键词: 黑盒LLM, 操作点, 概率校准, PR曲线, 置信度估计

一句话总结

发现黑盒 LLM 的语言化概率仅输出 16-23 个唯一值(低基数问题),导致 PR/ROC 曲线粗糙无法精细调优;通过注入参数化噪声和可选的 MLP 校正,将唯一值从 16 个提升到 20,000+,在仅需 1-2 次 API 调用的条件下达到 20 次采样的性能。

研究背景与动机

  1. 领域现状:将 LLM 部署为分类器时,需要在精确率-召回率曲线上选择合适的操作点。常见做法是让 LLM 输出[0,1]概率值作为置信度。
  2. 现有痛点:LLM 存在严重的"取整偏差"——输出的概率值集中在 0, 0.5, 0.85, 0.9, 0.95 等少数值上(以 0 和 5 结尾的倾向),导致 PR/ROC 曲线只有十几个离散点,无法精细控制阈值。
  3. 核心矛盾:PR 曲线上的粗糙间隔意味着在部署时只能选择"要么高精确率低召回率,要么低精确率高召回率",无法找到细粒度的折中点。
  4. 本文要解决什么? 如何在不大幅增加 API 调用次数的前提下,让黑盒 LLM 的概率输出变得连续?
  5. 切入角度:向离散概率上加参数化噪声,本质上将离散分布"扩散"为连续分布。
  6. 核心idea一句话:加噪声打破取整偏差——在保持排序性能的前提下,将唯一概率值从16个扩展到20000+个。

方法详解

整体框架

三个变体:(1) Unsup——无监督加均匀噪声,(2) Sup-1call——有监督 MLP + 噪声,单次 API,(3) Sup-2call——有监督 MLP + 噪声,两次 API(T=0 和 T=1)。

关键设计

  1. 无监督噪声(Ours-Unsup):
  2. 做什么:在语言化概率上加均匀噪声,最大化噪声幅度同时保持性能
  3. 核心思路:max w s.t. sum(loss(y_i, clip(z_i*w + y_vrb_i))) <= sum(loss(y_i, y_vrb_i)),z ~ U(0,1)。本质上是在性能不退化的约束下找到最大的噪声幅度。
  4. 设计动机:无需任何标注数据,纯无监督。将基数从 16 提升到 5,614。

  5. 有监督噪声+MLP(Ours-Sup):

  6. 做什么:学习一个校正函数 f 将离散概率映射到更好的校准概率,同时加噪声
  7. 核心思路:min_{theta_f, w} sum(loss(y_i, sigmoid(z_i/w + f(y_vrb; theta_f)))) + lambda*w,z ~ N(0,1)。f 是 2 层 ReLU MLP,同时学习校正和噪声幅度。
  8. 设计动机:MLP 校正解决了概率校准问题(偏高/偏低),噪声解决了基数问题(离散化)。

实验关键数据

基数提升

方法 API 调用 唯一值数 基数倍数
Prompt-Naive 1 10 1x
Sample-Class (20次) 20 97 10x
Ours-Unsup 1 5,614 561x
Ours-Sup-2call 2 20,607 2,061x

性能对比(11 数据集联合)

方法 API 调用 PRAUC 精确率粒度
Prompt-Naive 1 0.72 0.081
Sample-Prob 20 0.78 0.014
Ours-Sup-2call 2 0.79 0.016

关键发现

  • Sup-2call 用 2 次 API 调用超越了 20 次采样的性能(PRAUC 0.79 vs 0.78)
  • 噪声是必要的——纯 MLP 校正(无噪声)无法解决基数问题
  • 在 11 个不同数据集上一致有效,从情感分类到事实验证

亮点与洞察

  • 从工程问题出发:发现 LLM 概率输出的取整偏差并量化其影响(16-23 个唯一值),这本身就是有价值的观察。
  • 噪声作为正则化:加噪声不是降低信号质量,反而是将过度离散化的信号"平滑"到连续空间,提升了下游决策的灵活性。
  • 成本效益极高:2 次 API 调用 > 20 次采样,节省 90% 的 API 成本。

局限性 / 可改进方向

  • 有监督变体需要标注数据训练 MLP,冷启动场景不适用
  • 仅在 Claude 和部分开源模型上验证,不同 LLM 的取整偏差可能不同
  • 噪声幅度和 MLP 结构是固定的,自适应方案可能更好

相关工作与启发

  • vs 标准采样: 多次采样(20次)提升基数但成本线性增长,本文用 1-2 次调用达到相当效果
  • vs 概率校准: Platt Scaling 等方法校准概率但不解决基数问题,本文同时解决两者

评分

  • 新颖性: ⭐⭐⭐⭐ 问题发现新颖(取整偏差),解决方案直观有效
  • 实验充分度: ⭐⭐⭐⭐ 11个数据集 + 多种基线 + 消融
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,图表丰富
  • 价值: ⭐⭐⭐⭐⭐ 对LLM部署有直接实用价值