Curiosity-driven RL for Symbolic Equation Solving¶

会议: NeurIPS 2025 arXiv: 2510.17022 代码: 无领域: model_compression 关键词: 强化学习, 符号数学, 好奇心驱动探索, PPO, 表达式树

一句话总结¶

将好奇心驱动探索（RND、ICM 等）与基于表达式树的图动作空间结合，使 PPO 智能体能够求解包含根号、指数和三角函数的非线性方程，超越了此前仅限于线性方程的 RL 方法。

研究背景与动机¶

符号数学（如解代数方程、计算积分）传统上依赖人工规则系统（Mathematica、Maple 等），RL 有望自主学习变换策略并发现新颖解法。然而 RL 应用于符号数学面临两大挑战： 1. 状态空间组合爆炸：每个方程可分支为大量子表达式 2. 动作空间大且动态：每步可对不同子表达式施加不同代数变换，可用动作随方程形式变化

先前工作（Poesia et al. 2021）仅能解线性方程，使用原始文本作为状态和原子级操作。Dabelow & Ueda (2024) 使用 Q-learning，仍局限于线性方程 \(a_0 + a_1 x = a_2 + a_3 x\)。本文首次展示 RL 求解非线性方程的可行性。

方法详解¶

整体框架¶

将方程求解建模为 MDP：状态是方程（以表达式树向量化表示），动作是 (operation, term) 对，奖励基于方程复杂度变化，终止条件为 \(\text{lhs} = x\)。

关键设计¶

状态表示：方程被表示为表达式树，通过前序遍历向量化并填充至最大长度 \(L=50\)。运算符和变量映射为整数：\(\{\text{add}:1, \text{sub}:2, \text{mul}:3, \ldots, x:5, a:6, \ldots\}\)。

动作空间：定义为 \((O \times T)\) 笛卡尔积加上额外操作：

\[O = \{\text{add, sub, mul, div}\} \cup \{\text{square, sqrt, exp, log, sin, cos, asin, acos}\}\]

\[T = \text{SubExpr}(\text{lhs}) \cup \text{SubExpr}(\text{rhs})\]

\[A = (O \times T) \cup \{(\text{Expand}, \text{None}), (\text{collect}, x), (\text{multiply}, -1)\}\]

动作集大小上限 \(|A| = 50\)，非法动作（如除以零）被 mask。

奖励函数：基于方程复杂度（表达式树节点数 + 边数）的变化：

\[R(\text{action}) = C(\text{equation}) - C(\text{equation after action})\]

鼓励智能体采取简化方程的动作。例如 \(C(ax+b) = 5 + 4 = 9\)，\(C(ax^2 + bx + c) = 10 + 9 = 19\)。

好奇心探索：将四种好奇心方法与 PPO 结合——ICM（Intrinsic Curiosity Module）、RIDE、NGU（Never Give Up）和 RND（Random Network Distillation）。好奇心作为内在奖励补充稀疏的外在奖励。

损失函数¶

使用标准 PPO 损失加上各好奇心方法的内在奖励。以 RND 为例，内在奖励为：

\[r_{\text{int}} = \|f(s; \theta) - \hat{f}(s; \hat{\theta})\|^2\]

其中 \(f\) 为固定随机网络，\(\hat{f}\) 为可训练预测网络。

实验关键数据¶

主实验¶

固定方程环境（成功率，\(N_{\text{trial}}=10\)，\(N_{\text{train}}=3\times10^6\)）：

方程	A*	A2C	PPO	PPO-ICM	PPO-RIDE	PPO-NGU	PPO-RND
\(ax+b\)	1.00	1.00	1.00	1.00	1.00	1.00	1.00
\(a/x+b\)	1.00	1.00	1.00	1.00	1.00	1.00	1.00
\(c(ax+b)+d\)	1.00	0.20	0.10	0.70	0.60	0.40	1.00
\(c+d/(ax+b)\)	0.00	0.00	0.20	0.50	0.40	0.50	0.80
\((ax+b)+e(cx+d)\)	0.00	0.00	0.00	0.20	0.00	0.20	0.40
\(e+(ax+b)/(cx+d)\)	0.00	0.00	0.00	0.10	0.00	0.30	0.50

随机方程环境（大数据集，depth < 5，\(10^4/10^3\) train/test split）： - PPO-RND：\(\text{test}_{10} \approx 0.8\)，\(\text{test}_{\text{greedy}} \approx 0.25\) - PPO-RIDE：\(\text{test}_{10} \approx 0.8\) - 纯 PPO：在大数据集上完全失败 - PPO-NGU：出人意料地表现最差（可能因记忆开销大）

消融实验¶

好奇心对比：RND 在固定和随机环境均表现最佳，具有轻量计算优势
动作集大小对比：\(|A| = 40, 70, 100\) 对性能无显著影响
可解方程类型：涵盖根式方程、指数方程、三角方程

关键发现¶

基于表达式树的 MDP 表述有效，好奇心驱动探索是求解非简单方程的必要条件
RND 在所有好奇心方法中一致最优：轻量高效且固定/随机环境通吃
当前方法仅限于"封闭"方程——求解所需操作全部包含在原表达式中

亮点与洞察¶

首次用 RL 求解非线性符号方程：包括涉及根号、指数、三角函数的方程
表达式树动作空间设计巧妙——子表达式作为操作对象，使动作空间随方程自适应变化
好奇心探索的必要性实验令人信服：无好奇心的 PPO/A2C 在复杂方程上完全失败
提出了清晰的未来 benchmark：二次方程求解（需 completing the square 这类"开放式"推理）

局限性¶

仅处理"封闭"方程——求解不需要引入方程外的新项
无法解二次方程（需发现 \((b/2a)^2\) 这种"生成性"推理）
Workshop paper 篇幅有限，实验规模较小
\(\text{test}_{\text{greedy}}\) 仅约 0.25，greedy policy 下泛化能力不足

评分¶

⭐ 新颖性: 4/5 — 首次展示 RL 非线性方程求解的可行性
⭐ 实验充分度: 3/5 — Workshop paper 实验充分但规模有限
⭐ 写作质量: 4/5 — MDP 形式化清晰，局限性讨论坦诚
⭐ 价值: 3/5 — 探索性工作，打开新方向但距实用仍有距离