Log Probability Tracking of LLM APIs¶

会议: ICLR 2026
arXiv: 2512.03816
代码: 有
领域: 视频理解
关键词: LLM API监控, log概率, 模型变更检测, 假设检验, 非确定性

一句话总结¶

提出 Logprob Tracking (LT) 方法，仅用单token输入和单token输出的log概率即可检测LLM API的微小变更（如单步微调），灵敏度比现有方法高2-3个数量级，成本低1000倍。

研究背景与动机¶

LLM API提供商通常提供版本固定的端点，暗示模型保持一致。用户（开发者、研究者、监管者）依赖这种一致性来保证应用可靠性和研究可复现性。然而用户缺乏实际验证一致性的手段。

实际中，提供商可能因多种原因改变模型： - 性能优化：更新推理软件/硬件基础设施 - 安全响应：应对新的越狱攻击或修改模型行为 - 成本节省：悄悄部署量化版本 - 流量管理：高峰期切换到更轻量的模型 - 安全事件：如Grok在2025年经历的三次被篡改系统提示事件

现有变更检测方法（如MET、MMLU基准测试）代价昂贵，需要大量查询和token生成，导致LLM API在实践中几乎不受第三方监控。

核心洞察：虽然log概率在实践中是非确定性的，但通过简单的统计检验，单token的logprob仍然包含足够丰富的分布信息来检测极微小的变更。

方法详解¶

整体框架¶

LT方法的流程极其简洁： 1. 向两个LLM API（同一API不同时间点）发送相同的短提示（单字母"x"） 2. 请求仅返回1个token的输出及其top-k logprobs 3. 重复 $N$ 次采样 4. 对每个token的logprob均值进行排列检验(permutation test)

关键设计¶

1. 处理非确定性¶

LLM logprobs的非确定性来源有二： - 有意的非确定性：温度采样（但LT直接操作logprobs，不受此影响） - 无意的非确定性：批处理中其他请求的影响、不同GPU路由导致的数值差异

LT将每个logprob视为从某个分布中采样，用标准假设检验判断两个分布是否相同。

2. 两样本检验¶

设 $\mathcal{V} = \{t_1, \dots, t_{n_{\text{tok}}}\}$ 为所有观察到的token集合。对每个token计算平均logprob：

\[\bar{a}_i^{(1)} = \frac{1}{N}\sum_{j=1}^{N} T_{j,i}^{(1)}, \quad \bar{a}_i^{(2)} = \frac{1}{N}\sum_{j=1}^{N} T_{j,i}^{(2)}\]

检验统计量为各token均值的绝对距离的平均：

\[S = \frac{1}{n_{\text{tok}}} \sum_{i=1}^{n_{\text{tok}}} |\bar{a}_i^{(1)} - \bar{a}_i^{(2)}|\]

使用排列检验获得p值：将 $2N$ 个样本随机分为两组，计算 $B$ 次排列统计量 $S^{(b)}$，p值为 $\hat{p} = \frac{1}{B}\sum_{b=1}^{B} \mathbf{1}\{S^{(b)} \geq S\}$。

3. 缺失logprob处理¶

top-k截断导致不同采样中token集合不完全相同。对于某次采样中缺失的token，用该次采样的最小logprob进行保守填充（因为其真实logprob不大于该值）。

4. TinyChange Benchmark¶

创建包含58种模型变体的基准，涵盖5个修改强度级别： - 常规微调和LoRA微调：1到512步单样本微调 - 非结构化权重剪枝：按幅度或随机，移除比例 $2^{-10}$ 到 $1$ - 参数噪声：高斯噪声标准差 $\sigma$ 从 $2^{-15}$ 到 $1$

应用于5个开源模型（0.5B-8B参数），共290个变体。

损失函数 / 训练策略¶

LT是纯统计推断方法，无训练过程。核心参数： - 采样数 $N=10$ - 排列检验次数 $B$ - 显著性水平 $\alpha$ - 仅需1-2个token的提示

实验关键数据¶

主实验¶

方法	Overall AUC (95% CI)	输入token/测试	输出token/测试	年度成本(GPT-4.1价格)
MMLU-ALG	0.878	$2.1 \times 10^5$	$9.9 \times 10^3$	$332
MET	0.670	$2.9 \times 10^4$	$2.0 \times 10^4$	$146
LT (Ours)	0.915	28	20	$0.14

LT不仅AUC最高(0.915)，token成本仅需48个(28输入+20输出)，比MET便宜约1000倍，比MMLU-ALG便宜约2400倍。

修改类型	LT达到AUC>0.9的最高难度	MET	MMLU-ALG
权重剪枝	$\leq 2^{-10}$	$2^{-1}$	$2^{-4}$

LT在权重剪枝灵敏度上比MET高 $2^9=512$ 倍，比MMLU-ALG高 $2^6=64$ 倍。

消融实验¶

提示长度影响：最短提示(1.5 tokens)和最长提示(33 tokens)之间的AUC差异仅约1%，表明极短提示即可有效检测。

真实世界部署：监控189个端点超过4个月，收集170万+响应，检测到37次疑似变更，涉及29个端点和7个提供商。几乎所有检测到的变更(34/37)影响开源权重模型。

关键发现¶

短至单字母"x"的提示就足以可靠检测变更
LoRA微调对所有方法都最难检测
开源权重模型同样频繁遭受未公开变更
部分提供商（如OpenAI）开始限制最小输出token数（≥16），可能是为了阻碍监控

亮点与洞察¶

极致简约：1-token输入 + 1-token输出 + 简单统计检验 = 超越复杂方法
信息密度观点：logprobs比生成的tokens包含更丰富的分布信息，是被严重低估的信号源
实用性极强：每小时监控一次、一年仅需$0.14的成本，使大规模持续监控成为可能
透明度呼吁：34/37变更涉及开源模型，揭示开源权重并不等于部署透明

局限性 / 可改进方向¶

需要API支持返回logprobs（目前仅约23%的端点支持）
无法区分基础设施变更和模型更新的具体类型
提供商可能通过缓存logprobs或识别监控查询来规避
某些修改（如调整end-of-sequence偏置）可能不影响首token
方法侧重于变更检测，不提供变更性质的详细信息

评分¶

新颖性：⭐⭐⭐⭐⭐ — logprob作为监控信号的洞察极具创新
技术深度：⭐⭐⭐⭐ — 统计方法简单但有效，理论分析清晰
实验充分度：⭐⭐⭐⭐⭐ — TinyChange benchmark + 大规模真实部署验证
实用价值：⭐⭐⭐⭐⭐ — 直接可部署，成本极低

方法	Overall AUC (95% CI)	输入token/测试	输出token/测试	年度成本(GPT-4.1价格)
MMLU-ALG	0.878	\(2.1 \times 10^5\)	\(9.9 \times 10^3\)	$332
MET	0.670	\(2.9 \times 10^4\)	\(2.0 \times 10^4\)	$146
LT (Ours)	0.915	28	20	$0.14