AutoDiscovery: Open-ended Scientific Discovery via Bayesian Surprise¶
会议: NeurIPS 2025
arXiv: 2507.00310
代码: https://github.com/allenai/autodiscovery
领域: 自动科学发现
关键词: 贝叶斯惊奇度, 开放式发现, MCTS, 假设生成, LLM Agent
一句话总结¶
AutoDiscovery 提出用贝叶斯惊奇度(Bayesian Surprise)作为开放式科学发现的客观奖励信号——通过 LLM 采样估计先验/后验信念分布的 KL 散度,配合 MCTS+渐进展宽在假设空间中探索,在 21 个真实数据集上比贪心/束搜索产生 5-29% 更多的惊奇发现,人类评估确认贝叶斯惊奇度与专家"惊讶感"的一致性(0.67)远超 LLM 自身评估的"新颖性"和"有用性"。
研究背景与动机¶
- 领域现状:目标驱动的自动科学发现需要人类指定研究问题。开放式发现(无预设目标,系统自主探索)更有野心但缺乏可靠的内在奖励信号。
- 现有痛点:(a) 多样性启发式不够——假设空间巨大,均匀探索浪费预算;(b) 人类代理指标("有趣度"、"新颖性"、"有用性")主观性强、专家间不一致、自动化不可靠——实验表明 LLM 评估的"有趣度"与人类的"惊讶感"几乎不相关。
- 核心矛盾:需要一个客观、可自动计算、与人类科学直觉一致的开放式发现奖励信号。
- 本文要解决什么? 定义并实现用贝叶斯惊奇度驱动的开放式科学发现。
- 切入角度:贝叶斯惊奇度 = 后验信念与先验信念的 KL 散度——假设被实验证据"惊到"(大幅改变信念)= 有趣的发现。通过 LLM 采样估计先验/后验的 Beta 分布参数。
- 核心 idea 一句话:LLM 采样估计先验/后验信念 → Beta-Bernoulli KL 散度 = 贝叶斯惊奇度 → 作为 MCTS 奖励信号驱动假设空间探索。
方法详解¶
整体框架¶
奖励: 对假设 \(H\),LLM 采样 \(n\) 次估计先验 \(P(\theta_H)\) 和后验 \(P(\theta_H|\mathcal{V}_D)\) → Beta-Bernoulli 拟合 → KL 散度 = 贝叶斯惊奇度 \(\text{BS}(H, \mathcal{V}_D)\)。搜索: MCTS + 渐进展宽 → UCT 平衡探索/利用 → 每轮:选择→展开→执行(验证假设)→反向传播惊奇度。Agent: 多 Agent 架构(假设生成器/实验编程器/分析师/评审员/修订员)。
关键设计¶
- 贝叶斯惊奇度估计:
- 做什么:量化实验证据对假设信念的改变程度
- 核心思路:LLM 对假设 \(H\) 采样 \(n\) 次 true/false,先验 \(k_{prior}\) 次 true → \(P_{est}(\theta_H) = \text{Beta}(1+k_{prior}, 1+n-k_{prior})\)。实验验证后同样采样得后验。\(\text{BS} = D_{KL}(P_{post} \| P_{prior})\)。附加信念偏移条件:期望后验需跨过阈值 \(\delta=0.5\)(从"可能真"变为"可能假"或反之)
-
设计动机:信息论中信念改变量 = 信息增益——正好捕获了"惊讶"的本质。Beta-Bernoulli 是最简单的共轭对,LLM 二值采样即可估计
-
MCTS + 渐进展宽:
- 做什么:在假设空间中高效搜索高惊奇度的假设
- 核心思路:\(\text{UCT}(H) = \frac{\sum_{h \in subtree(H)} S(h)}{N(H)} + C\sqrt{\frac{2\log N(H_{parent})}{N(H)}}\)。渐进展宽:每节点最多 \(kN^\alpha\) 个子节点。4 阶段迭代:选择→展开→执行→反传
-
设计动机:贪心搜索陷入局部最优(先找到的高惊奇假设附近反复搜索),MCTS 的 UCT 平衡探索深度和广度
-
LLM-based 去重(HAC):
- 做什么:合并语义等价的假设避免重复
- 核心思路:文本嵌入 → 层次聚类(HAC)→ 每个合并决策用 GPT-4o 判断(>70% 采样投票"等价"则合并)
- 设计动机:不同措辞的相同假设会浪费预算——去重是效率的关键
损失函数 / 训练策略¶
- 无训练——纯推理时搜索
- 预算 500 次假设评估
- 21 个真实数据集(DiscoveryBench 5 个 + BLADE 15 个 + SEA-AD 1 个)
实验关键数据¶
主实验(累计惊奇度,500 次迭代)¶
| 搜索方法 | 累计惊奇度 | vs AutoDiscovery |
|---|---|---|
| 重复采样(基线) | ~20-25 | -5 to -29% |
| Last-K 线性 | ~25-30 | ~-15% |
| 贪心树 | ~25-30 | ~-25% |
| 束搜索 | ~30 | ~-10% |
| AutoDiscovery (MCTS) | 40+ | — |
17/21 个数据集上 AutoDiscovery 最佳。
人类评估(1620 个 LLM-惊奇假设,3 位专家/假设)¶
| 奖励信号 | 人类惊讶感 | 人类有趣度 | 人类有用性 |
|---|---|---|---|
| 贝叶斯惊奇度 | 0.67 | 0.73 | 0.79 |
| LLM 惊讶感 | 0.11 | 0.76 | 0.80 |
| LLM 有趣度 | 0.15 | 0.74 | 0.78 |
| LLM 有用性 | 0.21 | 0.73 | 0.78 |
消融/验证¶
| 指标 | 有效性 |
|---|---|
| 实验有效性 | 98.58%(Gwet's AC1 = 0.97) |
| 实现有效性 | 98.01%(Gwet's AC1 = 0.98) |
| 去重准确率 | 90.76% |
关键发现¶
- 贝叶斯惊奇度与人类"惊讶感"的一致性(0.67)远远超过 LLM 自身评估(0.11-0.21)——说明主观指标不可靠但信息论指标可靠
- "有趣度"和"有用性"在所有奖励信号下几乎相同(~0.73-0.80)——它们作为区分性指标是无效的
- MCTS 搜索效率不随迭代退化(贪心/束搜索会),因为 UCT 自动平衡探索和利用
- 信念偏移条件很重要——过滤掉了"小幅调整信念"的低质量惊奇
亮点与洞察¶
- 贝叶斯惊奇度是第一个成功的开放式发现奖励:之前所有尝试(多样性、有趣度、新颖性)都不够客观或不可自动化
- LLM 的主观评估不可靠的量化证据:LLM 判断的"惊讶感"与人类仅 0.11 相关——强烈警示 LLM-as-Judge 的局限
- MCTS 在科学发现中的应用证明了搜索算法的跨领域价值——从围棋到科学假设空间
局限性 / 可改进方向¶
- 假设 LLM 知识前沿 ≈ 人类知识前沿(随模型改进会逐步成立)
- 推理过程无监督(未来可用监督推理提升样本效率)
- 仅评估了数据驱动发现(无湿实验室、有限文献发现)
- 部署需要学术谨慎和同行评审保障
相关工作与启发¶
- vs MOOSE-Chem/OpenScienceAgent: 目标驱动发现(需给研究问题),AutoDiscovery 是开放式的
- vs 好奇心驱动 RL: 好奇心 = 预测误差,贝叶斯惊奇度 = 信念改变——后者在科学发现中更合适
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 贝叶斯惊奇度 + MCTS 驱动的开放式科学发现是全新范式
- 实验充分度: ⭐⭐⭐⭐⭐ 21 数据集 + 4 搜索 baseline + 1620 假设人类评估 + Agent 有效性验证
- 写作质量: ⭐⭐⭐⭐⭐ 理论动机清晰,实验设计严谨
- 价值: ⭐⭐⭐⭐⭐ 可能开启 LLM 自主科学发现的新方向