跳转至

Enough Coin Flips Can Make LLMs Act Bayesian

会议: ACL 2025
arXiv: 2503.04722
领域: LLM 推理
关键词: 贝叶斯推理, 上下文学习, 概率建模, 先验校准, 抛硬币实验

一句话总结

通过受控的有偏硬币抛掷实验,证明 LLM 在获得足够的上下文示例后能以贝叶斯方式更新其先验,但初始先验通常存在系统性偏差(偏向正面),且注意力幅度对贝叶斯推理影响甚微。

研究背景与动机

上下文学习(ICL)是 LLM 最受关注的涌现能力之一,但其底层机制尚不清楚。核心问题在于:LLM 在面对新证据时究竟是简单的模式匹配,还是以某种类贝叶斯方式系统性地更新信念?

先前研究多在问答、语言建模等场景下讨论贝叶斯行为,但这些任务的真实后验分布不可知,难以精确评估。本文选择了一个极度简化但可完全计算贝叶斯量的场景——有偏硬币抛掷,从而可以精确评估 LLM 是否遵循贝叶斯更新规则。

方法详解

整体框架

实验设计为:给定一个偏置率 θ 的硬币,生成一系列抛掷结果作为 ICL 示例,然后从 LLM 的 token 概率中提取对"heads"和"tails"的概率估计。利用 Beta-Binomial 共轭先验框架,可精确计算出标准贝叶斯后验,从而将 LLM 的预测与理想贝叶斯后验进行量化比较。

具体流程: 1. 先验提取:通过 50 种不同提示变体查询模型对硬币正反面的初始概率 2. 显式偏置实验:在 prompt 中明确告知硬币偏置率,观察模型是否遵从 3. ICL 偏置实验:通过序列化的硬币结果作为 ICL 示例,隐式指定分布 4. 在线贝叶斯轨迹:使用分段切换的生成过程(前 50 步 θ₁=0.75,后 50 步 θ₂=0.25)观察模型的动态更新

关键设计

  • 概率提取机制:从模型的 token logits 中提取对"heads"/"tails"的概率并归一化。对于将"tails"拆分为多个 token 的模型,使用链式概率计算
  • 衡量指标:采用总变差距离(TVD)衡量模型预测分布与真实后验分布之间的差异
  • 折扣因子 γ 拟合:引入指数衰减因子修正贝叶斯滤波,用 L-BFGS-B 为每个模型拟合最优 γ 值,以解释模型的局部更新行为
  • 注意力分析:分析注意力权重总量/比例与模型估计质量之间的相关性

实验关键数据

主实验

发现 关键结果
LLM 先验偏差 所有模型初始先验均偏向"heads"(约 60%-80%),即使是无偏硬币
显式指令效果 非 instruct 模型完全忽略偏置指令;instruct 模型略好但仅在极端值(0%/100%)表现改善
ICL 效果 仅 3 个上下文示例即可显著改善 TVD;100 个示例仍无法完全捕获偏置分布
模型规模影响 Pythia Suite(70M-12B)结果表明模型规模对先验校准和 ICL 效益几乎无影响

贝叶斯滤波拟合 γ 值(关键定量结果):

模型 Best-Fit γ
OLMoE-1B-7B 0.3268
Gemma-2-2B 0.4910
Gemma-2-2B-Instruct 0.3087
Llama3.1-8B 0.8807
Llama3.1-8B-Instruct 0.4655
Phi-2 0.8781
Mistral-7B 0.6903
Mistral-7B-Instruct 0.9107

关键发现

  1. Instruct 模型 γ 值普遍更低:说明指令微调使模型更"局部化",更愿意根据新 ICL 证据快速切换行为
  2. 注意力与推理质量无相关性:θ₁ 段的 R=0.02, p=0.48;θ₂ 段的 R=-0.03, p=0.36,表明注意力权重的绝对大小与模型估计质量几乎完全不相关
  3. 注意力分配确实受分布影响:模型会为更可能改变最终分布的数据分配更多注意力,但高/低注意力与最终质量不相关

亮点与洞察

  • 极简场景的深刻洞见:用最简单的抛硬币实验证明了 LLM 的贝叶斯属性,实验设计堪称教科书级别
  • 先验而非更新是瓶颈:LLM 表现不佳的主要原因是先验偏差(训练数据中"heads"频率更高),而非更新机制失效
  • 对"LLM 作为世界模型"的启示:在机器人仿真、行为建模等领域使用 LLM 时,必须进行先验校准,否则即使简单的硬币翻转动力学都可能被错误建模
  • γ 值为理解不同模型的 ICL 行为提供了可量化的新视角
  • Instruct 微调的影响被量化:γ 值差异揭示了指令微调不仅改变模型的输出格式,还改变了其处理序列证据时的时间折扣结构

局限性

  • 实验设置极度简化(二元结果硬币),向更复杂的多结果或连续分布推广的可行性不确定
  • 仅考察开源模型(Gemma-2、Llama-3.1、Phi-2/3.5、Mistral、OLMoE、Pythia),缺乏对 GPT-4 等闭源模型的分析
  • 注意力分析局限于总量级层面,未深入探讨注意力头级别或层级别的注意力模式(pattern)影响
  • 贝叶斯框架假设了特定的共轭先验形式(Beta 分布),实际 LLM 内部表示可能使用更复杂的非参数分布
  • 100 步 ICL 序列在现实应用中已较长,更短上下文下的贝叶斯行为保证不明确
  • γ 值的物理含义有待进一步阐释——较低的 γ 是否意味着模型有更短的"记忆窗口"?

相关工作

  • LLM 概率表示:Zhu & Griffiths 2024 揭示 LLM 存在类人概率判断偏差;Gu et al. 2024 证明 LLM 知道概率概念但难以精确采样;Meister et al. 2024 发现 LLM 能描述偏态分布但无法模拟
  • ICL 机制:Xie et al. 2021 将 ICL 视为隐式贝叶斯推理;Wang et al. 2024 将 ICL 解释为潜变量模型的自然结果;Zhang et al. 2023 将 ICL 视为隐式贝叶斯模型平均
  • 上下文偏差校准:Zhao et al. 2021 提出上下文校准方法来纠正 few-shot 输出的系统性偏差
  • ICL 位置偏差:Lu et al. 2022 基于排列组合方法克服位置偏差;Liu et al. 2023 发现"lost-in-the-middle"效应

评分

维度 分数
新颖性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐⭐
实验充分性 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
实用影响 ⭐⭐⭐
综合评分 8/10