Language Model Probabilities are Not Calibrated in Numeric Contexts¶

会议: ACL 2025
arXiv: 2410.16007
代码: 未公开
作者: Charles J. Lovering, Michael Krumdick, Viet Dac Lai, Varshini Reddy, Seth Ebner, Nilesh Kumar, Rik Koncel-Kedziorski, Chris Tanner
机构: Kensho Technologies, Adobe, RIT, Apple
领域: LLM/NLP / 模型校准
关键词: 概率校准, 数字推理, 语言模型偏差, 模式崩塌, 系统性偏差

一句话总结¶

系统研究了语言模型在数值上下文中的概率校准问题，发现即使在简单场景（如从袋中取弹珠）下，包括 GPT-4o 在内的所有测试模型均严重校准不良，存在基于词序、词频和词标识的系统性偏差（如某些模型总选第一个选项，其他模型总选第二个），指令微调加剧了模式崩塌。

研究背景与动机¶

问题定义：某些文本有确定的唯一续写（如"艾菲尔铁塔在[巴黎]"），而另一些文本有自然的概率分布（如"抛硬币结果是[正面/反面]"）。理想情况下，语言模型的输出概率应当与上下文中隐含的数值信息相匹配。

为何重要： - 若袋中有 98 颗蓝色弹珠和 99 颗红色弹珠，模型应以约 50.2% 的概率输出"红色" - 不校准可能在单次交互中不产生影响，但在大量用户或重复使用中会造成系统性危害 - 典型场景：推荐系统中模型可能因餐厅名字等无关因素总推荐同一家餐厅，医疗诊断中不校准可能导致错误建议

预训练数据偏差：预训练数据集中不同数字出现频率不同（以 5 结尾的数字比以 7 结尾的多），这可能导致模型对不同数字产生偏差

与数学能力的关系：模型数学推理能力差意味着对数字的表示和使用不佳，这是校准的前提条件

方法详解¶

整体框架：三个模板数据集¶

论文引入三个模板数据集来系统测试模型的数值上下文校准能力：

colors 数据集（16.5 万题）：从 N₁ 个某色弹珠和 N₂ 个某色弹珠中随机取一颗，模型需在两种颜色之间分配概率。使用 5 个模板、3 种数字范围（1-10, 10-100, 100-999）、110 种颜色排列
wordproblems 数据集（3.36 万题）：更自然的场景（如"林中有 17 棵云杉和 99 棵雪松，闪电击中的树种是什么"），10 个模板，4-10 对选项
distributions 数据集（0.45 万题）：从均匀分布中采样整数（如"从区间 [2,5) 中采样"），5 个模板，320 对定义区间的数字

关键设计：概率质量的度量方式¶

对于每个问题实例，上下文 C 的合理续写 token 集合 T = {t₁, t₂, ..., tₙ}，每个 token 对应理想概率 pᵢ。模型输出概率 πᵢ 通过对常见分词变体（大小写、空格等）的概率求和得到。

评估指标¶

Probability Mass (PM)：合理 token 上的总概率质量 PM(T) = Σπₜ。PM 高表示模型理解了任务，将概率分配在了合理的选项上
Wasserstein Distance (WD)：衡量模型概率分布与理想校准分布之间的距离，WD 越低校准越好
Relative Entropy (RE)：模型分布与理想分布的熵差 RE = H(Π) - H(P)。RE < 0 表示模型过度集中（模式崩塌），RE > 0 表示过度分散

参考行为分类¶

论文定义了 6 种参考行为，用于描述模型的系统性偏差模式：

Null：PM 接近零
Calibrated：理想情况 Π = P
Pick Higher：总选数量大的那个选项
Pick Lower：总选数量小的那个
Pick First：总选 prompt 中第一个出现的选项
Pick Second：总选第二个出现的选项

测试模型¶

开源模型（Base + Chat 版本）：Mistral-7B-v0.1/v0.3, Mixtral-8x7B, Yi-1.5-9B/34B, Llama-3.1-8B, gemma-2-9b/27b
闭源模型：gpt-3.5, gpt-4-turbo, gpt-4o-mini, gpt-4o

实验结果¶

主实验 1：Probability Mass¶

模型	colors (Base→Chat)	wordproblems (Base→Chat)	distributions (Base→Chat)
Llama-3.1-8B	0.38 → 0.80	0.54 → 0.86	0.82 → 0.78
Mixtral-8x7B	0.36 → 0.99	0.57 → 0.97	0.96 → 1.00
gemma-2-27b	0.54 → 1.00	0.59 → 1.00	0.96 → 1.00
gpt-4o	- → 1.00	- → 0.60	- → 0.95

关键发现：指令微调模型的 PM 统计显著高于 Base 版本（概率集中在合理选项上），说明模型理解了任务。但 PM 高只是校准的前提，不等于校准好。

主实验 2：校准结果 (WD)¶

模型	colors	wordproblems	distributions
Pick Higher 基线	0.47	0.44	-
Pick Higher(p=0.7) 基线	0.15	0.17	-
Llama-3.1-8B	0.40	0.48	0.43
gemma-2-27b	0.40	0.48	0.59
gpt-4o-mini	0.40	0.57	0.57
gpt-4o	0.40	0.57	0.49

核心结论：所有模型校准表现都很差。简单的"Pick Higher(p=0.7)"基线（将 70% 的概率分配给较大数字对应的选项）就超越了所有模型，这说明模型虽能识别合理选项，但无法在选项间正确分配概率。

主实验 3：Relative Entropy¶

所有模型的 RE 在所有数据集上均统计显著低于校准水平
指令微调导致熵大幅下降，平均在三个数据集上分别降低 0.50/0.36/1.19 bits
这意味着指令微调后模型仅保留了理想校准结果 47%/42%/55% 的熵——模式崩塌
最好校准模型（gpt-*）同时也有最低的相对熵，说明没有模型接近良好校准

消融实验：选项身份与顺序的影响¶

论文对 colors 数据集进行了详细的选项对分析（以 gpt-4o-mini 为例）：

对角线不对称：将颜色 A 列为第一还是第二个选项，会显著改变模型行为。例如"白色"列为第一时模型倾向 Pick Higher，列为第二时倾向 Pick First
词标识影响：不同颜色词触发不同偏差模式。某些颜色对（如 purple-white）导致模型几乎 100% 选择第一个选项
词频效应：预训练语料中不同数字和颜色的频率差异影响校准表现

关键发现汇总¶

模型可以识别合理选项（高 PM），但无法在选项间正确分配概率
指令微调虽提高 PM，但导致严重的模式崩塌（过度集中于一个选项）
不同模型有不同的系统偏差：gpt-4o-mini 倾向选第一个，Llama-3.1-8B 倾向选第二个
选项的词标识（具体是什么颜色词）和词序（哪个颜色先出现）显著影响偏差方向
即使在极其简单的数值推理场景下，模型也无法做到基本校准

亮点与洞察¶

问题重要性被低估：单次交互中校准偏差不明显，但在大规模应用中可能造成系统性不公平（如推荐系统、医疗诊断）
简洁有力的实验设计：用最简单的概率场景（弹珠抽取）暴露模型的根本缺陷，不需要复杂的数学推理
揭示指令微调的副作用：RLHF/SFT 让模型"更确定"但非"更正确"，是模式崩塌的根源
系统性偏差的发现：偏差不是随机的，而是可预测的、与词序和词标识相关的系统性模式
Reference Behavior 分类法：将模型行为抽象为 6 种参考行为，提供了清晰的分析工具

局限性¶

仅测试了数字范围到 999，更大数字的行为未充分探索
未测试 Chain-of-Thought 等提示策略是否能改善校准
数据集仅涉及简单的比率和概率，未涵盖贝叶斯定理、条件独立等复杂概念
概率质量累积方式（对分词变体求和）是不完美的近似
未探索校准问题的缓解方案

评分 ⭐⭐⭐⭐¶

创新性: ⭐⭐⭐⭐ 首次系统研究数值上下文下的概率校准问题，问题定义清晰
实验充分性: ⭐⭐⭐⭐⭐ 三个数据集、16 个模型、多种评估指标、详细的偏差分析
实用价值: ⭐⭐⭐⭐ 揭示了 LLM 在概率推理中的根本缺陷，对下游应用有重要警示
写作质量: ⭐⭐⭐⭐ 结构清晰，可视化出色，Reference Behavior 分类直观易懂