NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents¶
会议: ICLR 2026
arXiv: 2510.07172
代码: 有
领域: LLM Agent
关键词: 科学发现, 基准测试, 反事实物理法则, 符号回归, 交互式探索
一句话总结¶
提出NewtonBench,一个包含12个物理领域324个任务的LLM科学法则发现基准,通过"反事实法则平移"生成可防止记忆化的新颖任务,要求智能体通过交互式实验探索发现隐藏的物理方程,发现GPT-5最佳(75.9%符号准确率)但在复杂系统中急剧退化(40.3%),且代码工具对强模型反而有负面效果。
研究背景与动机¶
-
领域现状:LLM驱动的科学发现是前沿方向,但现有基准(如SRBench)面临"方法论三难困境"——科学相关性、可扩展性、抗记忆化三者不可兼得。
-
现有痛点:
- 现有基准多为静态函数拟合,不需要交互式探索
- 合成基准虽可扩展但缺乏科学基础
- 真实物理方程可能被LLM从训练数据中记忆
-
缺少系统复杂度的分级评估
-
核心矛盾:需要同时满足科学基础、防记忆化和可扩展性,但直接使用真实法则无法防止记忆化,完全合成又缺失科学意义。
-
本文要解决什么? 通过反事实法则平移解决三难困境,构建交互式科学发现基准。
-
切入角度:对已知物理法则的表达式树进行系统性变异(算子/常数突变),生成科学上有基础但LLM从未见过的新法则。
-
核心idea一句话:通过表达式树突变生成反事实物理法则+交互式实验环境,构建首个防记忆化的可扩展科学发现基准。
方法详解¶
整体框架¶
12个物理领域 × 3个难度级(Easy/Medium/Hard,每级3个变体)× 3个系统复杂度(Vanilla/Simple/Complex)= 324个任务。智能体通过<run_experiment>工具输入变量值、观察输出,迭代设计实验发现隐藏方程。
关键设计¶
- 反事实法则平移(Counterfactual Law Shifts)
- 做什么:从原始物理法则出发,通过累积突变生成新方程
- 两种突变:算子突变(如 \(+\) → \(\times\))和常数突变(如平方→立方)
- 三级难度:Easy(1-2次突变)→Medium(在Easy基础再突变)→Hard(在Medium基础再突变)
- 保持量纲一致性:突变后调整物理常数单位
-
设计动机:新方程从未出现在训练语料中,天然防记忆化
-
三级系统复杂度
- Vanilla:仅目标方程,无混淆变量
- Simple:目标方程嵌入简单系统(含辅助方程)
-
Complex:最大混淆,多个方程构成的系统
-
交互式实验环境
- 智能体提出输入值→模拟器返回系统输出
- 可选Python代码解释器用于数值回归
评估指标¶
- 符号准确率(SA):数学等价性检查(LLM-as-judge,98.3%与人类一致)
- RMSLE:数据拟合度指标
实验关键数据¶
主实验(11个模型)¶
| 模型 | Vanilla Easy | Vanilla Hard | Complex Hard | 平均SA |
|---|---|---|---|---|
| GPT-5 | 90.3% | 87.5% | 40.3% | 75.9% |
| Gemini-2.5-pro | 96.5% | 69.4% | 16.7% | 65.4% |
| o4-mini | 88.9% | 52.8% | 2.8% | 47.8% |
| DeepSeek-R1 | 88.2% | 36.8% | 2.8% | 43.4% |
| GPT-4.1 | 16.7% | 1.4% | 0.7% | 5.8% |
消融实验¶
| 配置 | 关键发现 |
|---|---|
| 代码工具对强模型 | GPT-5: 75.9%→下降2-3%;GPT-5-mini: 53.1%→48.1% 代码有害 |
| 代码工具对弱模型 | <40%SA的模型:代码提升明显 |
| 噪声0.0001 | 所有模型准确率下降12-16% |
| 噪声增加 | 性能与噪声水平成正比退化 |
关键发现¶
- 推理能力是门槛:非推理模型(GPT-4.1等)全部<10%准确率
- 复杂度崩塌:GPT-5从Vanilla Easy 90.3%→Complex Hard 40.3%,二阶以上复杂度是核心瓶颈
- 代码工具的悖论效应:强模型使用代码后探索率急剧下降(过度利用),弱模型则受益于计算卸载
- 跨领域差异大:Bose-Einstein分布最难(18.1%),热传导最简单
- 推理token缩放:推理模型随任务复杂度显著增加token消耗,非推理模型不会
亮点与洞察¶
- 反事实法则平移是解决记忆化的优雅方案:不是造全新方程(失去科学基础),而是在真实方程上做可控变异,既保持科学意义又防止记忆
- 代码工具的exploration-exploitation trade-off发现:强模型拿到代码后倾向于做局部拟合(exploitation),放弃了全局探索(exploration),这是一个深刻的行为洞察,与RL中的经典困境呼应
- 交互式评估范式:从"给数据拟合方程"升级到"设计实验发现法则",更贴近真实科学发现过程
局限性 / 可改进方向¶
- 仅覆盖物理学,化学/生物学的推广未验证
- 反事实法则虽科学上有基础但不对应真实现象
- 极微小噪声(0.0001)就导致12-16%准确率下降,真实场景适用性存疑
- 只测试了标量输出的单目标方程发现
相关工作与启发¶
- vs SRBench:传统符号回归基准,静态数据拟合,无交互式探索,无防记忆化设计
- vs AI Feynman:用真实Feynman方程但面临记忆化风险;NewtonBench通过反事实平移解决
- vs BALSA/Funsearch:程序搜索方法,与NewtonBench的方程发现范式互补
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 反事实法则平移+交互式发现基准是全新贡献,代码悖论效应是深刻发现
- 实验充分度: ⭐⭐⭐⭐ 11模型、12领域、多消融分析全面,但缺少非推理模型的改进路径
- 写作质量: ⭐⭐⭐⭐ 基准设计动机清晰,实验分析深入
- 价值: ⭐⭐⭐⭐⭐ 为LLM科学发现能力提供了严格评估工具,代码工具悖论对agent设计有重要启示