跳转至

NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents

会议: ICLR 2026
arXiv: 2510.07172
代码: 有
领域: LLM Agent
关键词: 科学发现, 基准测试, 反事实物理法则, 符号回归, 交互式探索

一句话总结

提出NewtonBench,一个包含12个物理领域324个任务的LLM科学法则发现基准,通过"反事实法则平移"生成可防止记忆化的新颖任务,要求智能体通过交互式实验探索发现隐藏的物理方程,发现GPT-5最佳(75.9%符号准确率)但在复杂系统中急剧退化(40.3%),且代码工具对强模型反而有负面效果。

研究背景与动机

  1. 领域现状:LLM驱动的科学发现是前沿方向,但现有基准(如SRBench)面临"方法论三难困境"——科学相关性、可扩展性、抗记忆化三者不可兼得。

  2. 现有痛点

  3. 现有基准多为静态函数拟合,不需要交互式探索
  4. 合成基准虽可扩展但缺乏科学基础
  5. 真实物理方程可能被LLM从训练数据中记忆
  6. 缺少系统复杂度的分级评估

  7. 核心矛盾:需要同时满足科学基础、防记忆化和可扩展性,但直接使用真实法则无法防止记忆化,完全合成又缺失科学意义。

  8. 本文要解决什么? 通过反事实法则平移解决三难困境,构建交互式科学发现基准。

  9. 切入角度:对已知物理法则的表达式树进行系统性变异(算子/常数突变),生成科学上有基础但LLM从未见过的新法则。

  10. 核心idea一句话:通过表达式树突变生成反事实物理法则+交互式实验环境,构建首个防记忆化的可扩展科学发现基准。

方法详解

整体框架

12个物理领域 × 3个难度级(Easy/Medium/Hard,每级3个变体)× 3个系统复杂度(Vanilla/Simple/Complex)= 324个任务。智能体通过<run_experiment>工具输入变量值、观察输出,迭代设计实验发现隐藏方程。

关键设计

  1. 反事实法则平移(Counterfactual Law Shifts)
  2. 做什么:从原始物理法则出发,通过累积突变生成新方程
  3. 两种突变:算子突变(如 \(+\)\(\times\))和常数突变(如平方→立方)
  4. 三级难度:Easy(1-2次突变)→Medium(在Easy基础再突变)→Hard(在Medium基础再突变)
  5. 保持量纲一致性:突变后调整物理常数单位
  6. 设计动机:新方程从未出现在训练语料中,天然防记忆化

  7. 三级系统复杂度

  8. Vanilla:仅目标方程,无混淆变量
  9. Simple:目标方程嵌入简单系统(含辅助方程)
  10. Complex:最大混淆,多个方程构成的系统

  11. 交互式实验环境

  12. 智能体提出输入值→模拟器返回系统输出
  13. 可选Python代码解释器用于数值回归

评估指标

  • 符号准确率(SA):数学等价性检查(LLM-as-judge,98.3%与人类一致)
  • RMSLE:数据拟合度指标

实验关键数据

主实验(11个模型)

模型 Vanilla Easy Vanilla Hard Complex Hard 平均SA
GPT-5 90.3% 87.5% 40.3% 75.9%
Gemini-2.5-pro 96.5% 69.4% 16.7% 65.4%
o4-mini 88.9% 52.8% 2.8% 47.8%
DeepSeek-R1 88.2% 36.8% 2.8% 43.4%
GPT-4.1 16.7% 1.4% 0.7% 5.8%

消融实验

配置 关键发现
代码工具对强模型 GPT-5: 75.9%→下降2-3%;GPT-5-mini: 53.1%→48.1% 代码有害
代码工具对弱模型 <40%SA的模型:代码提升明显
噪声0.0001 所有模型准确率下降12-16%
噪声增加 性能与噪声水平成正比退化

关键发现

  • 推理能力是门槛:非推理模型(GPT-4.1等)全部<10%准确率
  • 复杂度崩塌:GPT-5从Vanilla Easy 90.3%→Complex Hard 40.3%,二阶以上复杂度是核心瓶颈
  • 代码工具的悖论效应:强模型使用代码后探索率急剧下降(过度利用),弱模型则受益于计算卸载
  • 跨领域差异大:Bose-Einstein分布最难(18.1%),热传导最简单
  • 推理token缩放:推理模型随任务复杂度显著增加token消耗,非推理模型不会

亮点与洞察

  • 反事实法则平移是解决记忆化的优雅方案:不是造全新方程(失去科学基础),而是在真实方程上做可控变异,既保持科学意义又防止记忆
  • 代码工具的exploration-exploitation trade-off发现:强模型拿到代码后倾向于做局部拟合(exploitation),放弃了全局探索(exploration),这是一个深刻的行为洞察,与RL中的经典困境呼应
  • 交互式评估范式:从"给数据拟合方程"升级到"设计实验发现法则",更贴近真实科学发现过程

局限性 / 可改进方向

  • 仅覆盖物理学,化学/生物学的推广未验证
  • 反事实法则虽科学上有基础但不对应真实现象
  • 极微小噪声(0.0001)就导致12-16%准确率下降,真实场景适用性存疑
  • 只测试了标量输出的单目标方程发现

相关工作与启发

  • vs SRBench:传统符号回归基准,静态数据拟合,无交互式探索,无防记忆化设计
  • vs AI Feynman:用真实Feynman方程但面临记忆化风险;NewtonBench通过反事实平移解决
  • vs BALSA/Funsearch:程序搜索方法,与NewtonBench的方程发现范式互补

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 反事实法则平移+交互式发现基准是全新贡献,代码悖论效应是深刻发现
  • 实验充分度: ⭐⭐⭐⭐ 11模型、12领域、多消融分析全面,但缺少非推理模型的改进路径
  • 写作质量: ⭐⭐⭐⭐ 基准设计动机清晰,实验分析深入
  • 价值: ⭐⭐⭐⭐⭐ 为LLM科学发现能力提供了严格评估工具,代码工具悖论对agent设计有重要启示