Enough Coin Flips Can Make LLMs Act Bayesian¶

会议: ACL 2025
arXiv: 2503.04722
领域: LLM 推理
关键词: 贝叶斯推理, 上下文学习, 概率建模, 先验校准, 抛硬币实验

一句话总结¶

通过受控的有偏硬币抛掷实验，证明 LLM 在获得足够的上下文示例后能以贝叶斯方式更新其先验，但初始先验通常存在系统性偏差（偏向正面），且注意力幅度对贝叶斯推理影响甚微。

研究背景与动机¶

上下文学习（ICL）是 LLM 最受关注的涌现能力之一，但其底层机制尚不清楚。核心问题在于：LLM 在面对新证据时究竟是简单的模式匹配，还是以某种类贝叶斯方式系统性地更新信念？

先前研究多在问答、语言建模等场景下讨论贝叶斯行为，但这些任务的真实后验分布不可知，难以精确评估。本文选择了一个极度简化但可完全计算贝叶斯量的场景——有偏硬币抛掷，从而可以精确评估 LLM 是否遵循贝叶斯更新规则。

方法详解¶

整体框架¶

实验设计为：给定一个偏置率 θ 的硬币，生成一系列抛掷结果作为 ICL 示例，然后从 LLM 的 token 概率中提取对"heads"和"tails"的概率估计。利用 Beta-Binomial 共轭先验框架，可精确计算出标准贝叶斯后验，从而将 LLM 的预测与理想贝叶斯后验进行量化比较。

具体流程： 1. 先验提取：通过 50 种不同提示变体查询模型对硬币正反面的初始概率 2. 显式偏置实验：在 prompt 中明确告知硬币偏置率，观察模型是否遵从 3. ICL 偏置实验：通过序列化的硬币结果作为 ICL 示例，隐式指定分布 4. 在线贝叶斯轨迹：使用分段切换的生成过程（前 50 步 θ₁=0.75，后 50 步 θ₂=0.25）观察模型的动态更新

关键设计¶

概率提取机制：从模型的 token logits 中提取对"heads"/"tails"的概率并归一化。对于将"tails"拆分为多个 token 的模型，使用链式概率计算
衡量指标：采用总变差距离（TVD）衡量模型预测分布与真实后验分布之间的差异
折扣因子 γ 拟合：引入指数衰减因子修正贝叶斯滤波，用 L-BFGS-B 为每个模型拟合最优 γ 值，以解释模型的局部更新行为
注意力分析：分析注意力权重总量/比例与模型估计质量之间的相关性

实验关键数据¶

主实验¶

发现	关键结果
LLM 先验偏差	所有模型初始先验均偏向"heads"（约 60%-80%），即使是无偏硬币
显式指令效果	非 instruct 模型完全忽略偏置指令；instruct 模型略好但仅在极端值（0%/100%）表现改善
ICL 效果	仅 3 个上下文示例即可显著改善 TVD；100 个示例仍无法完全捕获偏置分布
模型规模影响	Pythia Suite（70M-12B）结果表明模型规模对先验校准和 ICL 效益几乎无影响

贝叶斯滤波拟合 γ 值（关键定量结果）：

模型	Best-Fit γ
OLMoE-1B-7B	0.3268
Gemma-2-2B	0.4910
Gemma-2-2B-Instruct	0.3087
Llama3.1-8B	0.8807
Llama3.1-8B-Instruct	0.4655
Phi-2	0.8781
Mistral-7B	0.6903
Mistral-7B-Instruct	0.9107

关键发现¶

Instruct 模型 γ 值普遍更低：说明指令微调使模型更"局部化"，更愿意根据新 ICL 证据快速切换行为
注意力与推理质量无相关性：θ₁ 段的 R=0.02, p=0.48；θ₂ 段的 R=-0.03, p=0.36，表明注意力权重的绝对大小与模型估计质量几乎完全不相关
注意力分配确实受分布影响：模型会为更可能改变最终分布的数据分配更多注意力，但高/低注意力与最终质量不相关

亮点与洞察¶

极简场景的深刻洞见：用最简单的抛硬币实验证明了 LLM 的贝叶斯属性，实验设计堪称教科书级别
先验而非更新是瓶颈：LLM 表现不佳的主要原因是先验偏差（训练数据中"heads"频率更高），而非更新机制失效
对"LLM 作为世界模型"的启示：在机器人仿真、行为建模等领域使用 LLM 时，必须进行先验校准，否则即使简单的硬币翻转动力学都可能被错误建模
γ 值为理解不同模型的 ICL 行为提供了可量化的新视角
Instruct 微调的影响被量化：γ 值差异揭示了指令微调不仅改变模型的输出格式，还改变了其处理序列证据时的时间折扣结构

局限性¶

实验设置极度简化（二元结果硬币），向更复杂的多结果或连续分布推广的可行性不确定
仅考察开源模型（Gemma-2、Llama-3.1、Phi-2/3.5、Mistral、OLMoE、Pythia），缺乏对 GPT-4 等闭源模型的分析
注意力分析局限于总量级层面，未深入探讨注意力头级别或层级别的注意力模式（pattern）影响
贝叶斯框架假设了特定的共轭先验形式（Beta 分布），实际 LLM 内部表示可能使用更复杂的非参数分布
100 步 ICL 序列在现实应用中已较长，更短上下文下的贝叶斯行为保证不明确
γ 值的物理含义有待进一步阐释——较低的 γ 是否意味着模型有更短的"记忆窗口"？

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用影响	⭐⭐⭐
综合评分	8/10