Enough Coin Flips Can Make LLMs Act Bayesian¶
会议: ACL 2025
arXiv: 2503.04722
领域: LLM 推理
关键词: 贝叶斯推理, 上下文学习, 概率建模, 先验校准, 抛硬币实验
一句话总结¶
通过受控的有偏硬币抛掷实验,证明 LLM 在获得足够的上下文示例后能以贝叶斯方式更新其先验,但初始先验通常存在系统性偏差(偏向正面),且注意力幅度对贝叶斯推理影响甚微。
研究背景与动机¶
上下文学习(ICL)是 LLM 最受关注的涌现能力之一,但其底层机制尚不清楚。核心问题在于:LLM 在面对新证据时究竟是简单的模式匹配,还是以某种类贝叶斯方式系统性地更新信念?
先前研究多在问答、语言建模等场景下讨论贝叶斯行为,但这些任务的真实后验分布不可知,难以精确评估。本文选择了一个极度简化但可完全计算贝叶斯量的场景——有偏硬币抛掷,从而可以精确评估 LLM 是否遵循贝叶斯更新规则。
方法详解¶
整体框架¶
实验设计为:给定一个偏置率 θ 的硬币,生成一系列抛掷结果作为 ICL 示例,然后从 LLM 的 token 概率中提取对"heads"和"tails"的概率估计。利用 Beta-Binomial 共轭先验框架,可精确计算出标准贝叶斯后验,从而将 LLM 的预测与理想贝叶斯后验进行量化比较。
具体流程: 1. 先验提取:通过 50 种不同提示变体查询模型对硬币正反面的初始概率 2. 显式偏置实验:在 prompt 中明确告知硬币偏置率,观察模型是否遵从 3. ICL 偏置实验:通过序列化的硬币结果作为 ICL 示例,隐式指定分布 4. 在线贝叶斯轨迹:使用分段切换的生成过程(前 50 步 θ₁=0.75,后 50 步 θ₂=0.25)观察模型的动态更新
关键设计¶
- 概率提取机制:从模型的 token logits 中提取对"heads"/"tails"的概率并归一化。对于将"tails"拆分为多个 token 的模型,使用链式概率计算
- 衡量指标:采用总变差距离(TVD)衡量模型预测分布与真实后验分布之间的差异
- 折扣因子 γ 拟合:引入指数衰减因子修正贝叶斯滤波,用 L-BFGS-B 为每个模型拟合最优 γ 值,以解释模型的局部更新行为
- 注意力分析:分析注意力权重总量/比例与模型估计质量之间的相关性
实验关键数据¶
主实验¶
| 发现 | 关键结果 |
|---|---|
| LLM 先验偏差 | 所有模型初始先验均偏向"heads"(约 60%-80%),即使是无偏硬币 |
| 显式指令效果 | 非 instruct 模型完全忽略偏置指令;instruct 模型略好但仅在极端值(0%/100%)表现改善 |
| ICL 效果 | 仅 3 个上下文示例即可显著改善 TVD;100 个示例仍无法完全捕获偏置分布 |
| 模型规模影响 | Pythia Suite(70M-12B)结果表明模型规模对先验校准和 ICL 效益几乎无影响 |
贝叶斯滤波拟合 γ 值(关键定量结果):
| 模型 | Best-Fit γ |
|---|---|
| OLMoE-1B-7B | 0.3268 |
| Gemma-2-2B | 0.4910 |
| Gemma-2-2B-Instruct | 0.3087 |
| Llama3.1-8B | 0.8807 |
| Llama3.1-8B-Instruct | 0.4655 |
| Phi-2 | 0.8781 |
| Mistral-7B | 0.6903 |
| Mistral-7B-Instruct | 0.9107 |
关键发现¶
- Instruct 模型 γ 值普遍更低:说明指令微调使模型更"局部化",更愿意根据新 ICL 证据快速切换行为
- 注意力与推理质量无相关性:θ₁ 段的 R=0.02, p=0.48;θ₂ 段的 R=-0.03, p=0.36,表明注意力权重的绝对大小与模型估计质量几乎完全不相关
- 注意力分配确实受分布影响:模型会为更可能改变最终分布的数据分配更多注意力,但高/低注意力与最终质量不相关
亮点与洞察¶
- 极简场景的深刻洞见:用最简单的抛硬币实验证明了 LLM 的贝叶斯属性,实验设计堪称教科书级别
- 先验而非更新是瓶颈:LLM 表现不佳的主要原因是先验偏差(训练数据中"heads"频率更高),而非更新机制失效
- 对"LLM 作为世界模型"的启示:在机器人仿真、行为建模等领域使用 LLM 时,必须进行先验校准,否则即使简单的硬币翻转动力学都可能被错误建模
- γ 值为理解不同模型的 ICL 行为提供了可量化的新视角
- Instruct 微调的影响被量化:γ 值差异揭示了指令微调不仅改变模型的输出格式,还改变了其处理序列证据时的时间折扣结构
局限性¶
- 实验设置极度简化(二元结果硬币),向更复杂的多结果或连续分布推广的可行性不确定
- 仅考察开源模型(Gemma-2、Llama-3.1、Phi-2/3.5、Mistral、OLMoE、Pythia),缺乏对 GPT-4 等闭源模型的分析
- 注意力分析局限于总量级层面,未深入探讨注意力头级别或层级别的注意力模式(pattern)影响
- 贝叶斯框架假设了特定的共轭先验形式(Beta 分布),实际 LLM 内部表示可能使用更复杂的非参数分布
- 100 步 ICL 序列在现实应用中已较长,更短上下文下的贝叶斯行为保证不明确
- γ 值的物理含义有待进一步阐释——较低的 γ 是否意味着模型有更短的"记忆窗口"?
相关工作¶
- LLM 概率表示:Zhu & Griffiths 2024 揭示 LLM 存在类人概率判断偏差;Gu et al. 2024 证明 LLM 知道概率概念但难以精确采样;Meister et al. 2024 发现 LLM 能描述偏态分布但无法模拟
- ICL 机制:Xie et al. 2021 将 ICL 视为隐式贝叶斯推理;Wang et al. 2024 将 ICL 解释为潜变量模型的自然结果;Zhang et al. 2023 将 ICL 视为隐式贝叶斯模型平均
- 上下文偏差校准:Zhao et al. 2021 提出上下文校准方法来纠正 few-shot 输出的系统性偏差
- ICL 位置偏差:Lu et al. 2022 基于排列组合方法克服位置偏差;Liu et al. 2023 发现"lost-in-the-middle"效应
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐ |
| 实验充分性 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 实用影响 | ⭐⭐⭐ |
| 综合评分 | 8/10 |