跳转至

AutoDiscovery: Open-ended Scientific Discovery via Bayesian Surprise

会议: NeurIPS 2025
arXiv: 2507.00310
代码: https://github.com/allenai/autodiscovery
领域: 自动科学发现
关键词: 贝叶斯惊奇度, 开放式发现, MCTS, 假设生成, LLM Agent

一句话总结

AutoDiscovery 提出用贝叶斯惊奇度(Bayesian Surprise)作为开放式科学发现的客观奖励信号——通过 LLM 采样估计先验/后验信念分布的 KL 散度,配合 MCTS+渐进展宽在假设空间中探索,在 21 个真实数据集上比贪心/束搜索产生 5-29% 更多的惊奇发现,人类评估确认贝叶斯惊奇度与专家"惊讶感"的一致性(0.67)远超 LLM 自身评估的"新颖性"和"有用性"。

研究背景与动机

  1. 领域现状:目标驱动的自动科学发现需要人类指定研究问题。开放式发现(无预设目标,系统自主探索)更有野心但缺乏可靠的内在奖励信号。
  2. 现有痛点:(a) 多样性启发式不够——假设空间巨大,均匀探索浪费预算;(b) 人类代理指标("有趣度"、"新颖性"、"有用性")主观性强、专家间不一致、自动化不可靠——实验表明 LLM 评估的"有趣度"与人类的"惊讶感"几乎不相关。
  3. 核心矛盾:需要一个客观、可自动计算、与人类科学直觉一致的开放式发现奖励信号。
  4. 本文要解决什么? 定义并实现用贝叶斯惊奇度驱动的开放式科学发现。
  5. 切入角度:贝叶斯惊奇度 = 后验信念与先验信念的 KL 散度——假设被实验证据"惊到"(大幅改变信念)= 有趣的发现。通过 LLM 采样估计先验/后验的 Beta 分布参数。
  6. 核心 idea 一句话:LLM 采样估计先验/后验信念 → Beta-Bernoulli KL 散度 = 贝叶斯惊奇度 → 作为 MCTS 奖励信号驱动假设空间探索。

方法详解

整体框架

奖励: 对假设 \(H\),LLM 采样 \(n\) 次估计先验 \(P(\theta_H)\) 和后验 \(P(\theta_H|\mathcal{V}_D)\) → Beta-Bernoulli 拟合 → KL 散度 = 贝叶斯惊奇度 \(\text{BS}(H, \mathcal{V}_D)\)搜索: MCTS + 渐进展宽 → UCT 平衡探索/利用 → 每轮:选择→展开→执行(验证假设)→反向传播惊奇度。Agent: 多 Agent 架构(假设生成器/实验编程器/分析师/评审员/修订员)。

关键设计

  1. 贝叶斯惊奇度估计:
  2. 做什么:量化实验证据对假设信念的改变程度
  3. 核心思路:LLM 对假设 \(H\) 采样 \(n\) 次 true/false,先验 \(k_{prior}\) 次 true → \(P_{est}(\theta_H) = \text{Beta}(1+k_{prior}, 1+n-k_{prior})\)。实验验证后同样采样得后验。\(\text{BS} = D_{KL}(P_{post} \| P_{prior})\)。附加信念偏移条件:期望后验需跨过阈值 \(\delta=0.5\)(从"可能真"变为"可能假"或反之)
  4. 设计动机:信息论中信念改变量 = 信息增益——正好捕获了"惊讶"的本质。Beta-Bernoulli 是最简单的共轭对,LLM 二值采样即可估计

  5. MCTS + 渐进展宽:

  6. 做什么:在假设空间中高效搜索高惊奇度的假设
  7. 核心思路:\(\text{UCT}(H) = \frac{\sum_{h \in subtree(H)} S(h)}{N(H)} + C\sqrt{\frac{2\log N(H_{parent})}{N(H)}}\)。渐进展宽:每节点最多 \(kN^\alpha\) 个子节点。4 阶段迭代:选择→展开→执行→反传
  8. 设计动机:贪心搜索陷入局部最优(先找到的高惊奇假设附近反复搜索),MCTS 的 UCT 平衡探索深度和广度

  9. LLM-based 去重(HAC):

  10. 做什么:合并语义等价的假设避免重复
  11. 核心思路:文本嵌入 → 层次聚类(HAC)→ 每个合并决策用 GPT-4o 判断(>70% 采样投票"等价"则合并)
  12. 设计动机:不同措辞的相同假设会浪费预算——去重是效率的关键

损失函数 / 训练策略

  • 无训练——纯推理时搜索
  • 预算 500 次假设评估
  • 21 个真实数据集(DiscoveryBench 5 个 + BLADE 15 个 + SEA-AD 1 个)

实验关键数据

主实验(累计惊奇度,500 次迭代)

搜索方法 累计惊奇度 vs AutoDiscovery
重复采样(基线) ~20-25 -5 to -29%
Last-K 线性 ~25-30 ~-15%
贪心树 ~25-30 ~-25%
束搜索 ~30 ~-10%
AutoDiscovery (MCTS) 40+

17/21 个数据集上 AutoDiscovery 最佳。

人类评估(1620 个 LLM-惊奇假设,3 位专家/假设)

奖励信号 人类惊讶感 人类有趣度 人类有用性
贝叶斯惊奇度 0.67 0.73 0.79
LLM 惊讶感 0.11 0.76 0.80
LLM 有趣度 0.15 0.74 0.78
LLM 有用性 0.21 0.73 0.78

消融/验证

指标 有效性
实验有效性 98.58%(Gwet's AC1 = 0.97)
实现有效性 98.01%(Gwet's AC1 = 0.98)
去重准确率 90.76%

关键发现

  • 贝叶斯惊奇度与人类"惊讶感"的一致性(0.67)远远超过 LLM 自身评估(0.11-0.21)——说明主观指标不可靠但信息论指标可靠
  • "有趣度"和"有用性"在所有奖励信号下几乎相同(~0.73-0.80)——它们作为区分性指标是无效的
  • MCTS 搜索效率不随迭代退化(贪心/束搜索会),因为 UCT 自动平衡探索和利用
  • 信念偏移条件很重要——过滤掉了"小幅调整信念"的低质量惊奇

亮点与洞察

  • 贝叶斯惊奇度是第一个成功的开放式发现奖励:之前所有尝试(多样性、有趣度、新颖性)都不够客观或不可自动化
  • LLM 的主观评估不可靠的量化证据:LLM 判断的"惊讶感"与人类仅 0.11 相关——强烈警示 LLM-as-Judge 的局限
  • MCTS 在科学发现中的应用证明了搜索算法的跨领域价值——从围棋到科学假设空间

局限性 / 可改进方向

  • 假设 LLM 知识前沿 ≈ 人类知识前沿(随模型改进会逐步成立)
  • 推理过程无监督(未来可用监督推理提升样本效率)
  • 仅评估了数据驱动发现(无湿实验室、有限文献发现)
  • 部署需要学术谨慎和同行评审保障

相关工作与启发

  • vs MOOSE-Chem/OpenScienceAgent: 目标驱动发现(需给研究问题),AutoDiscovery 是开放式的
  • vs 好奇心驱动 RL: 好奇心 = 预测误差,贝叶斯惊奇度 = 信念改变——后者在科学发现中更合适

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 贝叶斯惊奇度 + MCTS 驱动的开放式科学发现是全新范式
  • 实验充分度: ⭐⭐⭐⭐⭐ 21 数据集 + 4 搜索 baseline + 1620 假设人类评估 + Agent 有效性验证
  • 写作质量: ⭐⭐⭐⭐⭐ 理论动机清晰,实验设计严谨
  • 价值: ⭐⭐⭐⭐⭐ 可能开启 LLM 自主科学发现的新方向