AutoDiscovery: Open-ended Scientific Discovery via Bayesian Surprise¶

会议: NeurIPS 2025
arXiv: 2507.00310
代码: https://github.com/allenai/autodiscovery
领域: 自动科学发现
关键词: 贝叶斯惊奇度, 开放式发现, MCTS, 假设生成, LLM Agent

一句话总结¶

AutoDiscovery 提出用贝叶斯惊奇度（Bayesian Surprise）作为开放式科学发现的客观奖励信号——通过 LLM 采样估计先验/后验信念分布的 KL 散度，配合 MCTS+渐进展宽在假设空间中探索，在 21 个真实数据集上比贪心/束搜索产生 5-29% 更多的惊奇发现，人类评估确认贝叶斯惊奇度与专家"惊讶感"的一致性（0.67）远超 LLM 自身评估的"新颖性"和"有用性"。

研究背景与动机¶

领域现状：目标驱动的自动科学发现需要人类指定研究问题。开放式发现（无预设目标，系统自主探索）更有野心但缺乏可靠的内在奖励信号。
现有痛点：(a) 多样性启发式不够——假设空间巨大，均匀探索浪费预算；(b) 人类代理指标（"有趣度"、"新颖性"、"有用性"）主观性强、专家间不一致、自动化不可靠——实验表明 LLM 评估的"有趣度"与人类的"惊讶感"几乎不相关。
核心矛盾：需要一个客观、可自动计算、与人类科学直觉一致的开放式发现奖励信号。
本文要解决什么？ 定义并实现用贝叶斯惊奇度驱动的开放式科学发现。
切入角度：贝叶斯惊奇度 = 后验信念与先验信念的 KL 散度——假设被实验证据"惊到"（大幅改变信念）= 有趣的发现。通过 LLM 采样估计先验/后验的 Beta 分布参数。
核心 idea 一句话：LLM 采样估计先验/后验信念 → Beta-Bernoulli KL 散度 = 贝叶斯惊奇度 → 作为 MCTS 奖励信号驱动假设空间探索。

方法详解¶

整体框架¶

奖励: 对假设 \(H\)，LLM 采样 \(n\) 次估计先验 \(P(\theta_H)\) 和后验 \(P(\theta_H|\mathcal{V}_D)\) → Beta-Bernoulli 拟合 → KL 散度 = 贝叶斯惊奇度 \(\text{BS}(H, \mathcal{V}_D)\)。搜索: MCTS + 渐进展宽 → UCT 平衡探索/利用 → 每轮：选择→展开→执行（验证假设）→反向传播惊奇度。Agent: 多 Agent 架构（假设生成器/实验编程器/分析师/评审员/修订员）。

关键设计¶

贝叶斯惊奇度估计:
做什么：量化实验证据对假设信念的改变程度
核心思路：LLM 对假设 \(H\) 采样 \(n\) 次 true/false，先验 \(k_{prior}\) 次 true → \(P_{est}(\theta_H) = \text{Beta}(1+k_{prior}, 1+n-k_{prior})\)。实验验证后同样采样得后验。\(\text{BS} = D_{KL}(P_{post} \| P_{prior})\)。附加信念偏移条件：期望后验需跨过阈值 \(\delta=0.5\)（从"可能真"变为"可能假"或反之）
设计动机：信息论中信念改变量 = 信息增益——正好捕获了"惊讶"的本质。Beta-Bernoulli 是最简单的共轭对，LLM 二值采样即可估计
MCTS + 渐进展宽:
做什么：在假设空间中高效搜索高惊奇度的假设
核心思路：\(\text{UCT}(H) = \frac{\sum_{h \in subtree(H)} S(h)}{N(H)} + C\sqrt{\frac{2\log N(H_{parent})}{N(H)}}\)。渐进展宽：每节点最多 \(kN^\alpha\) 个子节点。4 阶段迭代：选择→展开→执行→反传
设计动机：贪心搜索陷入局部最优（先找到的高惊奇假设附近反复搜索），MCTS 的 UCT 平衡探索深度和广度
LLM-based 去重（HAC）:
做什么：合并语义等价的假设避免重复
核心思路：文本嵌入 → 层次聚类（HAC）→ 每个合并决策用 GPT-4o 判断（>70% 采样投票"等价"则合并）
设计动机：不同措辞的相同假设会浪费预算——去重是效率的关键

损失函数 / 训练策略¶

无训练——纯推理时搜索
预算 500 次假设评估
21 个真实数据集（DiscoveryBench 5 个 + BLADE 15 个 + SEA-AD 1 个）

实验关键数据¶

主实验（累计惊奇度，500 次迭代）¶

搜索方法	累计惊奇度	vs AutoDiscovery
重复采样（基线）	~20-25	-5 to -29%
Last-K 线性	~25-30	~-15%
贪心树	~25-30	~-25%
束搜索	~30	~-10%
AutoDiscovery (MCTS)	40+	—

17/21 个数据集上 AutoDiscovery 最佳。

人类评估（1620 个 LLM-惊奇假设，3 位专家/假设）¶

奖励信号	人类惊讶感	人类有趣度	人类有用性
贝叶斯惊奇度	0.67	0.73	0.79
LLM 惊讶感	0.11	0.76	0.80
LLM 有趣度	0.15	0.74	0.78
LLM 有用性	0.21	0.73	0.78

消融/验证¶

指标	有效性
实验有效性	98.58%（Gwet's AC1 = 0.97）
实现有效性	98.01%（Gwet's AC1 = 0.98）
去重准确率	90.76%

关键发现¶

贝叶斯惊奇度与人类"惊讶感"的一致性（0.67）远远超过 LLM 自身评估（0.11-0.21）——说明主观指标不可靠但信息论指标可靠
"有趣度"和"有用性"在所有奖励信号下几乎相同（~0.73-0.80）——它们作为区分性指标是无效的
MCTS 搜索效率不随迭代退化（贪心/束搜索会），因为 UCT 自动平衡探索和利用
信念偏移条件很重要——过滤掉了"小幅调整信念"的低质量惊奇

亮点与洞察¶

贝叶斯惊奇度是第一个成功的开放式发现奖励：之前所有尝试（多样性、有趣度、新颖性）都不够客观或不可自动化
LLM 的主观评估不可靠的量化证据：LLM 判断的"惊讶感"与人类仅 0.11 相关——强烈警示 LLM-as-Judge 的局限
MCTS 在科学发现中的应用证明了搜索算法的跨领域价值——从围棋到科学假设空间

局限性 / 可改进方向¶

假设 LLM 知识前沿 ≈ 人类知识前沿（随模型改进会逐步成立）
推理过程无监督（未来可用监督推理提升样本效率）
仅评估了数据驱动发现（无湿实验室、有限文献发现）
部署需要学术谨慎和同行评审保障

评分¶

新颖性: ⭐⭐⭐⭐⭐ 贝叶斯惊奇度 + MCTS 驱动的开放式科学发现是全新范式
实验充分度: ⭐⭐⭐⭐⭐ 21 数据集 + 4 搜索 baseline + 1620 假设人类评估 + Agent 有效性验证
写作质量: ⭐⭐⭐⭐⭐ 理论动机清晰，实验设计严谨
价值: ⭐⭐⭐⭐⭐ 可能开启 LLM 自主科学发现的新方向