Large Language Bayes¶
会议: NeurIPS 2025
arXiv: 2504.14025
代码: 待确认
领域: LLM / 贝叶斯推断
关键词: LLM, 贝叶斯推断, 概率编程, 模型平均, Stan, 联合分布
一句话总结¶
将 LLM 和概率编程语言(PPL/Stan)数学地"胶合"成联合分布 \(p(z,x,m|t) = p(m|t)_{\text{LLM}} \cdot p(z,x|m)_{\text{PPL}}\),用户只需提供非形式化的问题描述和数据,系统自动从 LLM 采样候选形式模型、做贝叶斯推断、通过边际似然加权平均,无需用户编写概率模型。
研究背景与动机¶
- 领域现状:贝叶斯推断需要用户指定形式化模型(如先验分布、似然函数),这是专业技能门槛。LLM 理解自然语言描述但不能做严格的概率推断。概率编程语言(Stan, Pyro)能做严格推断但需要形式化输入。
- 现有痛点:传统贝叶斯工作流要求统计学家(1)理解问题→(2)手动构建模型→(3)编写 PPL 代码→(4)运行推断→(5)检查并迭代。步骤 2-3 是主要瓶颈。现有 LLM-for-statistics 工作只是让 LLM 生成代码,未将 LLM 的不确定性(模型空间的先验)纳入统计框架。
- 核心矛盾:LLM 能从自然语言理解建模意图,但它输出的"模型"只是代码字符串,不是概率分布的一部分。如何让 LLM 对模型的选择成为贝叶斯框架的有机组成部分?
- 本文要解决什么:开发一个数学上严格的框架,将 LLM 的模型生成能力和 PPL 的推断能力统一为一个贝叶斯推断问题。
- 切入角度:将 LLM 视为模型空间上的先验 \(p(m|t)\),PPL 处理给定模型下的似然和后验。联合分布自然地定义了模型平均。
- 核心idea一句话:LLM 是模型先验 + PPL 是模型内推断 = 完整的贝叶斯推断系统,用户只需说自然语言。
方法详解¶
整体框架¶
用户输入自然语言问题描述 \(t\) + 数据 \(x\) → LLM 生成 \(N\) 个候选形式模型 \(m_1,...,m_N\)(Stan 代码)→ 对每个 \(m_i\) 在 PPL 中运行近似推断(MCMC/VI)→ 用边际似然 \(p(x|m_i)\) 加权平均所有模型的后验 → 输出预测分布。
关键设计¶
- 联合分布的数学胶合:
- 做什么:定义 \(p(z,x,m|t) = p(m|t)_{\text{LLM}} \cdot p(z,x|m)_{\text{PPL}}\)
- 核心思路:\(m\) 是 LLM 生成的形式模型(Stan 代码),\(z\) 是模型内的潜变量,\(x\) 是数据。LLM 提供模型空间先验 \(p(m|t)\),PPL 提供模型内的条件分布 \(p(z,x|m)\)
- 设计动机:这使得模型选择不确定性和参数不确定性在同一个贝叶斯框架内统一处理
-
后验推断目标:\(p(z,m|x,t) \propto p(m|t) \cdot p(x|m) \cdot p(z|x,m)\)
-
推断方法(Inference Recipe):
- 做什么:结合自归一化重要性采样、MCMC 和重要性加权变分推断
- 步骤:(a) 从 LLM 采样 \(N\) 个模型;(b) 对每个模型跑 Stan 的 MCMC(或 VI)得到 \(p(z|x,m_i)\);(c) 估计边际似然 \(p(x|m_i)\)(通过 bridge sampling 或 warp bridge sampling);(d) 加权平均
-
设计动机:模型空间离散且巨大,穷举不可能。用 LLM 做重要性采样,边际似然做权重
-
LLM 提示工程:
- 做什么:设计系统提示让 LLM 在生成 Stan 代码前先"思考"建模策略
- 包含 6 个 in-context learning 示例,展示从问题描述到模型选择的推理过程
- 设计动机:让 LLM 先推理再编码,提高生成模型的质量和多样性
损失函数 / 训练策略¶
无训练——利用现有预训练 LLM(GPT-4)和 PPL(Stan)。核心是推断算法而非学习。
实验关键数据¶
主实验¶
| 评估维度 | 结果 | 说明 |
|---|---|---|
| 预测合理性 | 从非形式描述产出有意义的预测 | 端到端验证 |
| vs 朴素平均 | 加权平均优于等权平均 | 边际似然权重有效 |
| 模型多样性 | LLM 生成的模型覆盖不同建模策略 | 系统提示中的策略讨论步骤有帮助 |
| 后验覆盖 | 95% 置信区间覆盖目标 | 统计一致性验证 |
消融实验¶
| 配置 | 关键发现 | 说明 |
|---|---|---|
| 有/无 "思考" 步骤 | 有策略讨论的 LLM 模型更多样 | prompting 影响模型空间探索 |
| N (候选模型数) | 更多模型→更好覆盖,但边际收益递减 | ~10-20 个模型足以 |
| 边际似然估计方法 | Warp bridge sampling 最稳定 | Bridge sampling 对多峰后验可能不准 |
| $p(m | t)$ 是否可用 | 商业 API 不提供概率,均匀替代仍有效 |
关键发现¶
- 框架在不同任务(回归、分类、时间序列)上都能从自然语言描述产生有意义的后验预测
- LLM 对模型的"先验"确实捕获了统计建模的合理偏好
- 模型平均通过边际似然自动下调不合适模型的权重
亮点与洞察¶
- 数学上的优雅统一:将 LLM 建模为模型空间上的先验是一个非常自然的想法,但数学上要严谨地处理需要解决很多细节(潜变量空间不同、\(p(m|t)\) 不可用等)。本文完整地解决了这些问题。
- "自然语言作为统计建模接口":从更大视角看,这开启了让非专业人士直接做贝叶斯分析的可能性。自然语言描述 → 完整的贝叶斯后验,是统计民主化的重要一步。
- 模型不确定性的正确处理:传统 AutoML 选一个最好的模型,本文做贝叶斯模型平均——这在样本小、模型选择困难时特别有价值。
局限性 / 可改进方向¶
- \(p(m|t)\) 在商业 LLM API 中通常不可获取,只能用均匀近似
- LLM 的"思考"(thinking/CoT)使 \(p(m|t)\) 更加不可处理
- 边际似然 \(p(x|m)\) 的估计在高维模型中可能不准
- 不同模型的潜变量空间 \(z\) 不同,加权平均需要在预测空间而非参数空间做
- LLM 生成的 Stan 代码可能有语法错误或数值不稳定
- 可扩展性:大数据集 + 复杂模型时 MCMC 很慢
相关工作与启发¶
- vs AutoML/CASH:AutoML 从候选集搜索最优模型;本文做贝叶斯模型平均,保留不确定性
- vs LLM-for-code (Codex/GPT-4):仅用 LLM 生成代码不处理模型选择的不确定性;本文将生成过程纳入贝叶斯框架
- vs BMA (Bayesian Model Averaging):传统 BMA 需要人工指定模型集;本文用 LLM 自动生成
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ LLM + PPL 的联合分布是美的数学框架,开创性
- 实验充分度: ⭐⭐⭐ 有概念验证但缺乏大规模基准对比
- 写作质量: ⭐⭐⭐⭐⭐ 数学推导优雅,问题动机清晰
- 价值: ⭐⭐⭐⭐⭐ 可能开启"自然语言 → 贝叶斯推断"的新范式