NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents¶

会议: ICLR 2026
arXiv: 2510.07172
代码: 有
领域: LLM Agent
关键词: 科学发现, 基准测试, 反事实物理法则, 符号回归, 交互式探索

一句话总结¶

提出NewtonBench，一个包含12个物理领域324个任务的LLM科学法则发现基准，通过"反事实法则平移"生成可防止记忆化的新颖任务，要求智能体通过交互式实验探索发现隐藏的物理方程，发现GPT-5最佳（75.9%符号准确率）但在复杂系统中急剧退化（40.3%），且代码工具对强模型反而有负面效果。

研究背景与动机¶

领域现状：LLM驱动的科学发现是前沿方向，但现有基准（如SRBench）面临"方法论三难困境"——科学相关性、可扩展性、抗记忆化三者不可兼得。
现有痛点：
现有基准多为静态函数拟合，不需要交互式探索
合成基准虽可扩展但缺乏科学基础
真实物理方程可能被LLM从训练数据中记忆
缺少系统复杂度的分级评估
核心矛盾：需要同时满足科学基础、防记忆化和可扩展性，但直接使用真实法则无法防止记忆化，完全合成又缺失科学意义。
本文要解决什么？ 通过反事实法则平移解决三难困境，构建交互式科学发现基准。
切入角度：对已知物理法则的表达式树进行系统性变异（算子/常数突变），生成科学上有基础但LLM从未见过的新法则。
核心idea一句话：通过表达式树突变生成反事实物理法则+交互式实验环境，构建首个防记忆化的可扩展科学发现基准。

方法详解¶

整体框架¶

12个物理领域 × 3个难度级（Easy/Medium/Hard，每级3个变体）× 3个系统复杂度（Vanilla/Simple/Complex）= 324个任务。智能体通过<run_experiment>工具输入变量值、观察输出，迭代设计实验发现隐藏方程。

关键设计¶

反事实法则平移（Counterfactual Law Shifts）
做什么：从原始物理法则出发，通过累积突变生成新方程
两种突变：算子突变（如 \(+\) → \(\times\)）和常数突变（如平方→立方）
三级难度：Easy(1-2次突变)→Medium(在Easy基础再突变)→Hard(在Medium基础再突变)
保持量纲一致性：突变后调整物理常数单位
设计动机：新方程从未出现在训练语料中，天然防记忆化
三级系统复杂度
Vanilla：仅目标方程，无混淆变量
Simple：目标方程嵌入简单系统（含辅助方程）
Complex：最大混淆，多个方程构成的系统
交互式实验环境
智能体提出输入值→模拟器返回系统输出
可选Python代码解释器用于数值回归

评估指标¶

符号准确率（SA）：数学等价性检查（LLM-as-judge，98.3%与人类一致）
RMSLE：数据拟合度指标

实验关键数据¶

主实验（11个模型）¶

模型	Vanilla Easy	Vanilla Hard	Complex Hard	平均SA
GPT-5	90.3%	87.5%	40.3%	75.9%
Gemini-2.5-pro	96.5%	69.4%	16.7%	65.4%
o4-mini	88.9%	52.8%	2.8%	47.8%
DeepSeek-R1	88.2%	36.8%	2.8%	43.4%
GPT-4.1	16.7%	1.4%	0.7%	5.8%

消融实验¶

配置	关键发现
代码工具对强模型	GPT-5: 75.9%→下降2-3%；GPT-5-mini: 53.1%→48.1% 代码有害
代码工具对弱模型	<40%SA的模型：代码提升明显
噪声0.0001	所有模型准确率下降12-16%
噪声增加	性能与噪声水平成正比退化

关键发现¶

推理能力是门槛：非推理模型（GPT-4.1等）全部<10%准确率
复杂度崩塌：GPT-5从Vanilla Easy 90.3%→Complex Hard 40.3%，二阶以上复杂度是核心瓶颈
代码工具的悖论效应：强模型使用代码后探索率急剧下降（过度利用），弱模型则受益于计算卸载
跨领域差异大：Bose-Einstein分布最难（18.1%），热传导最简单
推理token缩放：推理模型随任务复杂度显著增加token消耗，非推理模型不会

亮点与洞察¶

反事实法则平移是解决记忆化的优雅方案：不是造全新方程（失去科学基础），而是在真实方程上做可控变异，既保持科学意义又防止记忆
代码工具的exploration-exploitation trade-off发现：强模型拿到代码后倾向于做局部拟合（exploitation），放弃了全局探索（exploration），这是一个深刻的行为洞察，与RL中的经典困境呼应
交互式评估范式：从"给数据拟合方程"升级到"设计实验发现法则"，更贴近真实科学发现过程

局限性 / 可改进方向¶

仅覆盖物理学，化学/生物学的推广未验证
反事实法则虽科学上有基础但不对应真实现象
极微小噪声（0.0001）就导致12-16%准确率下降，真实场景适用性存疑
只测试了标量输出的单目标方程发现

评分¶

新颖性: ⭐⭐⭐⭐⭐ 反事实法则平移+交互式发现基准是全新贡献，代码悖论效应是深刻发现
实验充分度: ⭐⭐⭐⭐ 11模型、12领域、多消融分析全面，但缺少非推理模型的改进路径
写作质量: ⭐⭐⭐⭐ 基准设计动机清晰，实验分析深入
价值: ⭐⭐⭐⭐⭐ 为LLM科学发现能力提供了严格评估工具，代码工具悖论对agent设计有重要启示