SR-Scientist: Scientific Equation Discovery With Agentic AI¶

会议: ICLR 2026 arXiv: 2510.11661 代码: GitHub 领域: llm_agent 关键词: symbolic regression, agentic AI, equation discovery, reinforcement learning, scientific discovery

一句话总结¶

提出 SR-Scientist 框架，将 LLM 从简单的方程提议者提升为自主 AI 科学家，通过代码解释器工具进行数据分析和方程评估，在长时程交互中自主发现科学方程，并结合强化学习进一步提升能力。

研究背景与动机¶

符号回归（Symbolic Regression, SR）旨在从观测数据中发现可解释的数学表达式，是科学发现的基础任务。传统方法主要分为三类： - 遗传编程（GP）方法：如 PySR、GPLearn，使用表达式树进行组合搜索 - 深度学习方法：如 E2E、NeSymReS、DSR，通过神经网络学习从数值到表达式的映射 - LLM 增强方法：如 LLM-SR、LaSR，将 LLM 嵌入 GP 算法作为方程提议器

然而，现有 LLM 方法的局限性在于： 1. LLM 仅作为固定流水线中的方程生成器，缺乏自主性 2. 无法通过工具直接分析观测数据获取洞察 3. 大多数工作仅关注推理阶段，未探索通过 RL 等方法让模型自我进化

本文的核心动机是：构建以 Agentic AI 为核心的科学发现框架，让 LLM 不再是被动工具，而是能驱动整个发现生命周期的自主 Agent。

方法详解¶

整体框架¶

SR-Scientist 的推理框架采用迭代式设计（Algorithm 1）：

每次迭代设定一个精度目标 \(G_i\)（基于 MAPE）
LLM Agent 在 ReAct 框架下，交替进行推理与工具调用：\((r_1, \mathcal{T}_1, o_1), (r_2, \mathcal{T}_2, o_2), \ldots\)
通过经验缓冲区（Experience Buffer）跨迭代传递最优方程
当达到停止条件时，提交最佳方程

目标函数使用 MAPE（平均绝对百分比误差）：

\[\text{MAPE} = \frac{100\%}{n} \sum_{i=1}^{n} \left| \frac{y_i - f(\mathbf{x}_i)}{y_i} \right|\]

关键设计¶

工具设计：将代码解释器封装为两个核心工具： - 数据分析器 \(T_1\)：链接到观测数据，Agent 可编写代码进行统计分析、残差分析等多种数据探索 - 方程评估器 \(T_2\)：接受含常数占位符的方程骨架，内部用 BFGS 算法优化常数并报告性能

经验缓冲区：维护 \(E = \{(e_i, s_i)\}_{i=1}^{N}\) 记录已探索的方程及其 MAPE 分数。每次迭代开始时，从缓冲区取出最优 \(K\) 个方程作为上下文示例。这一机制巧妙地绕过了 LLM 上下文长度的限制。

长时程优化：每次迭代允许 Agent 进行最多 \(M=25\) 轮交互（超过 20 轮），使其有充分时间分析数据和优化方程。

损失函数 / 强化学习¶

训练框架采用 GRPO 算法，奖励函数为对数线性映射：

\[\mathcal{R} = \text{clip}\left(\frac{\lg s_{\max} - \lg s}{\lg s_{\max} - \lg s_{\text{goal}}}, 0, 1\right)\]

其中 \(s\) 为最佳方程的 MAPE，\(s_{\max}=100\%\)，\(s_{\text{goal}}=0.1\%\)。该连续奖励设计避免了二值奖励的稀疏性问题。训练数据通过混合规则与模型的合成策略构建，覆盖材料科学、化学、生物学、物理学四个领域。

实验关键数据¶

主实验¶

在 LSR-Synth 基准（129 个问题，4 个学科）上的精度结果：

方法	Overall Acc₀.₀₁	Overall Acc₀.₀₀₁	材料科学 Acc₀.₀₁	化学 Acc₀.₀₁	生物学 Acc₀.₀₁	物理学 Acc₀.₀₁
PySR	29.46	14.47	53.33	25.93	16.67	25.76
LLM-SR (Qwen-480B)	41.08	18.09	80.00	36.11	30.56	28.79
SR-Scientist (GPT-120B)	63.57	49.35	74.67	81.48	66.67	40.91
SR-Scientist (GLM)	48.32	25.06	81.33	45.37	40.28	36.37
SR-Scientist (Qwen-480B)	49.09	24.55	86.67	40.74	50.00	34.09
SR-Scientist (30B)	32.30	16.02	81.33	22.22	22.22	18.18
SR-Scientist (30B+RL)	40.92	20.69	85.33	37.38	29.17	25.00

核心发现：SR-Scientist 在四个模型中均超越基线 6%~35%，GPT-OSS-120B 作为骨干时达到最高性能。RL 训练在所有学科上均带来显著提升。

消融实验¶

方法	Acc₀.₀₁	Acc₀.₀₀₁
SR-Scientist (GPT)	63.57	49.35
w/o 数据分析器 \(T_1\)	35.66	16.28
w/o 经验缓冲区	57.36	41.86
w/o top-k（随机采样）	58.14	41.86

消融分析表明： - 数据分析工具对 GPT 模型影响最大（下降约 28 个百分点） - 经验缓冲区对 Qwen 模型影响最大（下降 13.4 个百分点） - top-k 采样策略优于随机采样

关键发现¶

符号准确率：SR-Scientist 在完全恢复 ground truth 方程上表现最佳（SA=7.75~8.00），高于 PySR（4.65）和 LLM-SR（5.43）
噪声鲁棒性：在添加不同标准差的高斯噪声后，SR-Scientist 一致优于其他方法
OOD 泛化：发现的方程在域外测试数据上仍保持最佳性能
最优交互轮数：25 轮为最优值，过短（10 轮）不足以深入探索，过长则效益递减
工具使用行为差异：GPT 系列倾向直接编写残差分析代码，Qwen/GLM 系列更多使用数据统计

亮点与洞察¶

范式转变：将 LLM 从被动的方程提议者转变为自主的 AI 科学家，这是科学发现领域的重要思路转变
经验缓冲区设计精妙：用简单的堆结构解决了 LLM 上下文长度限制问题，同时实现了跨迭代的知识传递
连续奖励设计：利用方程性能可连续度量的特点，设计对数线性奖励避免稀疏性，这比数学/代码任务的二值奖励更加适配
最小人工流水线原则：Agent 自由决定工作流程，不同模型展现出不同的分析策略（如 GPT 偏好残差分析，Qwen 偏好统计分析）
RL 自我进化有效：30B 小模型通过 RL 训练后性能接近非 RL 的大模型，验证了 Agent 自我提升的可行性

局限性¶

仅使用文本模型，未利用多模态输入（如图表分析）
噪声场景下仍存在显著性能下降
Agent 可能在不同迭代中重复探索已知差劲的方程，记忆系统有优化空间
评估集虽经防记忆设计，但 LSR-Synth 仍为合成数据，与真实科学发现场景存在差距

评分¶

创新性: ⭐⭐⭐⭐ — 将 Agentic AI 范式引入符号回归，结合 RL 自我进化是重要贡献
实验充分性: ⭐⭐⭐⭐⭐ — 4 个学科、5 个骨干模型、精度/泛化/噪声鲁棒/符号准确率全面评估
实用性: ⭐⭐⭐⭐ — 代码开源，框架模块化，但依赖大量 LLM 调用成本较高
写作质量: ⭐⭐⭐⭐ — 结构清晰，算法描述规范，但部分内容可更精简
综合评分: ⭐⭐⭐⭐ (4/5)