Language Model Probabilities are Not Calibrated in Numeric Contexts¶
会议: ACL 2025
arXiv: 2410.16007
代码: 未公开
作者: Charles J. Lovering, Michael Krumdick, Viet Dac Lai, Varshini Reddy, Seth Ebner, Nilesh Kumar, Rik Koncel-Kedziorski, Chris Tanner
机构: Kensho Technologies, Adobe, RIT, Apple
领域: LLM/NLP / 模型校准
关键词: 概率校准, 数字推理, 语言模型偏差, 模式崩塌, 系统性偏差
一句话总结¶
系统研究了语言模型在数值上下文中的概率校准问题,发现即使在简单场景(如从袋中取弹珠)下,包括 GPT-4o 在内的所有测试模型均严重校准不良,存在基于词序、词频和词标识的系统性偏差(如某些模型总选第一个选项,其他模型总选第二个),指令微调加剧了模式崩塌。
研究背景与动机¶
问题定义:某些文本有确定的唯一续写(如"艾菲尔铁塔在[巴黎]"),而另一些文本有自然的概率分布(如"抛硬币结果是[正面/反面]")。理想情况下,语言模型的输出概率应当与上下文中隐含的数值信息相匹配。
为何重要: - 若袋中有 98 颗蓝色弹珠和 99 颗红色弹珠,模型应以约 50.2% 的概率输出"红色" - 不校准可能在单次交互中不产生影响,但在大量用户或重复使用中会造成系统性危害 - 典型场景:推荐系统中模型可能因餐厅名字等无关因素总推荐同一家餐厅,医疗诊断中不校准可能导致错误建议
预训练数据偏差:预训练数据集中不同数字出现频率不同(以 5 结尾的数字比以 7 结尾的多),这可能导致模型对不同数字产生偏差
与数学能力的关系:模型数学推理能力差意味着对数字的表示和使用不佳,这是校准的前提条件
方法详解¶
整体框架:三个模板数据集¶
论文引入三个模板数据集来系统测试模型的数值上下文校准能力:
- colors 数据集(16.5 万题):从 N₁ 个某色弹珠和 N₂ 个某色弹珠中随机取一颗,模型需在两种颜色之间分配概率。使用 5 个模板、3 种数字范围(1-10, 10-100, 100-999)、110 种颜色排列
- wordproblems 数据集(3.36 万题):更自然的场景(如"林中有 17 棵云杉和 99 棵雪松,闪电击中的树种是什么"),10 个模板,4-10 对选项
- distributions 数据集(0.45 万题):从均匀分布中采样整数(如"从区间 [2,5) 中采样"),5 个模板,320 对定义区间的数字
关键设计:概率质量的度量方式¶
对于每个问题实例,上下文 C 的合理续写 token 集合 T = {t₁, t₂, ..., tₙ},每个 token 对应理想概率 pᵢ。模型输出概率 πᵢ 通过对常见分词变体(大小写、空格等)的概率求和得到。
评估指标¶
- Probability Mass (PM):合理 token 上的总概率质量 PM(T) = Σπₜ。PM 高表示模型理解了任务,将概率分配在了合理的选项上
- Wasserstein Distance (WD):衡量模型概率分布与理想校准分布之间的距离,WD 越低校准越好
- Relative Entropy (RE):模型分布与理想分布的熵差 RE = H(Π) - H(P)。RE < 0 表示模型过度集中(模式崩塌),RE > 0 表示过度分散
参考行为分类¶
论文定义了 6 种参考行为,用于描述模型的系统性偏差模式:
- Null:PM 接近零
- Calibrated:理想情况 Π = P
- Pick Higher:总选数量大的那个选项
- Pick Lower:总选数量小的那个
- Pick First:总选 prompt 中第一个出现的选项
- Pick Second:总选第二个出现的选项
测试模型¶
- 开源模型(Base + Chat 版本):Mistral-7B-v0.1/v0.3, Mixtral-8x7B, Yi-1.5-9B/34B, Llama-3.1-8B, gemma-2-9b/27b
- 闭源模型:gpt-3.5, gpt-4-turbo, gpt-4o-mini, gpt-4o
实验结果¶
主实验 1:Probability Mass¶
| 模型 | colors (Base→Chat) | wordproblems (Base→Chat) | distributions (Base→Chat) |
|---|---|---|---|
| Llama-3.1-8B | 0.38 → 0.80 | 0.54 → 0.86 | 0.82 → 0.78 |
| Mixtral-8x7B | 0.36 → 0.99 | 0.57 → 0.97 | 0.96 → 1.00 |
| gemma-2-27b | 0.54 → 1.00 | 0.59 → 1.00 | 0.96 → 1.00 |
| gpt-4o | - → 1.00 | - → 0.60 | - → 0.95 |
关键发现:指令微调模型的 PM 统计显著高于 Base 版本(概率集中在合理选项上),说明模型理解了任务。但 PM 高只是校准的前提,不等于校准好。
主实验 2:校准结果 (WD)¶
| 模型 | colors | wordproblems | distributions |
|---|---|---|---|
| Pick Higher 基线 | 0.47 | 0.44 | - |
| Pick Higher(p=0.7) 基线 | 0.15 | 0.17 | - |
| Llama-3.1-8B | 0.40 | 0.48 | 0.43 |
| gemma-2-27b | 0.40 | 0.48 | 0.59 |
| gpt-4o-mini | 0.40 | 0.57 | 0.57 |
| gpt-4o | 0.40 | 0.57 | 0.49 |
核心结论:所有模型校准表现都很差。简单的"Pick Higher(p=0.7)"基线(将 70% 的概率分配给较大数字对应的选项)就超越了所有模型,这说明模型虽能识别合理选项,但无法在选项间正确分配概率。
主实验 3:Relative Entropy¶
- 所有模型的 RE 在所有数据集上均统计显著低于校准水平
- 指令微调导致熵大幅下降,平均在三个数据集上分别降低 0.50/0.36/1.19 bits
- 这意味着指令微调后模型仅保留了理想校准结果 47%/42%/55% 的熵——模式崩塌
- 最好校准模型(gpt-*)同时也有最低的相对熵,说明没有模型接近良好校准
消融实验:选项身份与顺序的影响¶
论文对 colors 数据集进行了详细的选项对分析(以 gpt-4o-mini 为例):
- 对角线不对称:将颜色 A 列为第一还是第二个选项,会显著改变模型行为。例如"白色"列为第一时模型倾向 Pick Higher,列为第二时倾向 Pick First
- 词标识影响:不同颜色词触发不同偏差模式。某些颜色对(如 purple-white)导致模型几乎 100% 选择第一个选项
- 词频效应:预训练语料中不同数字和颜色的频率差异影响校准表现
关键发现汇总¶
- 模型可以识别合理选项(高 PM),但无法在选项间正确分配概率
- 指令微调虽提高 PM,但导致严重的模式崩塌(过度集中于一个选项)
- 不同模型有不同的系统偏差:gpt-4o-mini 倾向选第一个,Llama-3.1-8B 倾向选第二个
- 选项的词标识(具体是什么颜色词)和词序(哪个颜色先出现)显著影响偏差方向
- 即使在极其简单的数值推理场景下,模型也无法做到基本校准
亮点与洞察¶
- 问题重要性被低估:单次交互中校准偏差不明显,但在大规模应用中可能造成系统性不公平(如推荐系统、医疗诊断)
- 简洁有力的实验设计:用最简单的概率场景(弹珠抽取)暴露模型的根本缺陷,不需要复杂的数学推理
- 揭示指令微调的副作用:RLHF/SFT 让模型"更确定"但非"更正确",是模式崩塌的根源
- 系统性偏差的发现:偏差不是随机的,而是可预测的、与词序和词标识相关的系统性模式
- Reference Behavior 分类法:将模型行为抽象为 6 种参考行为,提供了清晰的分析工具
局限性¶
- 仅测试了数字范围到 999,更大数字的行为未充分探索
- 未测试 Chain-of-Thought 等提示策略是否能改善校准
- 数据集仅涉及简单的比率和概率,未涵盖贝叶斯定理、条件独立等复杂概念
- 概率质量累积方式(对分词变体求和)是不完美的近似
- 未探索校准问题的缓解方案
相关工作¶
- 预测校准: Guo et al. (2017) 研究置信度与准确率的匹配;Wei et al. (2024) 报告 GPT 有良好校准,但 Phan et al. (2025) 持相反结论
- 语言校准: Yona et al. (2024) 发现模型难以在文本中表达内部不确定性;Kumar et al. (2024) 测量内部(logits)和外部(Likert 量表)的置信度一致性
- 随机性模拟: Van Koevering & Kleinberg (2024) 发现 LLM 模拟抛硬币时偏向正面和 prompt 中先提到的选项
- 位置偏差: Pezeshkpour & Hruschka (2024) 展示 LLM 在多选题中偏好特定位置的选项
评分 ⭐⭐⭐⭐¶
- 创新性: ⭐⭐⭐⭐ 首次系统研究数值上下文下的概率校准问题,问题定义清晰
- 实验充分性: ⭐⭐⭐⭐⭐ 三个数据集、16 个模型、多种评估指标、详细的偏差分析
- 实用价值: ⭐⭐⭐⭐ 揭示了 LLM 在概率推理中的根本缺陷,对下游应用有重要警示
- 写作质量: ⭐⭐⭐⭐ 结构清晰,可视化出色,Reference Behavior 分类直观易懂
相关论文¶
- [ACL 2025] La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America
- [ICML 2025] Communicating Activations Between Language Model Agents
- [NeurIPS 2025] Bayesian Evaluation of Large Language Model Behavior
- [CVPR 2025] Practical Solutions to the Relative Pose of Three Calibrated Cameras
- [NeurIPS 2025] Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training