AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking¶
会议: ICLR 2026
arXiv: 2506.07751
代码: 有
领域: LLM推理
关键词: abstract reasoning, reinforcement learning, GSM robustness, symbolic reasoning, distribution shift
一句话总结¶
提出 AbstRaL,通过强化学习教 LLM 学习推理问题的数学抽象(将具体数字/名称替换为符号变量、提取通用公式),然后用符号求解器推导答案,在 GSM 扰动 benchmark 上几乎完全消除了分布偏移导致的性能下降,并在 OOD 数学/通用推理任务上也有隐式提升。
研究背景与动机¶
- 领域现状:LLM 在 GSM 等小学数学上表现不错,但面对分布偏移(改变数字、改变人名、插入干扰条件)时性能显著下降,暴露了推理的脆弱性。
- 现有痛点:改善鲁棒性的常见方法是合成更多实例化变体来扩充训练数据——但计算成本高且效果有限。另一种方法是抽象推理(CoA、AoT),但现有方法要么依赖 in-context learning(效果差),要么用 SFT 训练(产生的抽象不忠实)。
- 核心矛盾:SFT 的自回归目标迫使模型也学习每个训练样本的具体上下文,阻碍了学习跨实例通用的抽象思维。需要一种训练方式让模型聚焦于抽象结构而非表面上下文。
- 本文要解决什么? 如何让 LLM 学会构建忠实的数学抽象,使推理对输入的上下文变化不变?
- 切入角度:不扩充数据,而是直接教 LLM 学习"抽象化"技能——将问题变量化→用符号推理→用求解器算答案。用 RL 而非仅 SFT 来保证抽象的忠实性。
- 核心idea一句话:用 RL + 细粒度抽象奖励教 LLM "抽象思考"——将具体推理问题转化为符号公式再求解。
方法详解¶
整体框架¶
AbstRaL 四步流水线:(1) 条件识别——用 LLM 解析出问题中的数值/变量并赋予抽象符号;(2) 抽象推理——LLM 用抽象符号生成推理链和数学公式;(3) 抽象提取——正则匹配提取公式;(4) 符号推导——用 SymPy 求解器计算最终答案。核心是步骤 2 的学习。
关键设计¶
- GranulAR 训练数据:
- 做什么:构建细粒度抽象推理训练数据
- 核心思路:将已有 socratic CoT 数据中的具体值替换为抽象符号(如
in0,out0),保留推理结构。用 Llama-3.3-70B 改写,然后用 SymPy 验证改写后的公式是否能推导出正确答案 -
设计动机:将抽象推理嵌入 LLM 已经熟悉的 CoT+分步分解格式中(接近预训练分布),降低学习难度
-
RL 抽象奖励设计:
- 做什么:用两个无需训练 reward model 的奖励来强化抽象推理
- 答案正确性奖励 \(r_{answer}\):用 SymPy 验证模型生成的抽象 \(\tilde{\mathcal{A}}\) + 原条件 \(\mathcal{C}\) 能否推导出正确答案,正确给正奖励,否则 0
- 符号距离奖励 \(r_{symbolic}\):计算生成抽象 \(\tilde{\mathcal{A}}\) 与金标准抽象 \(\mathcal{A}\) 之间的 token 级编辑距离,归一化到 [0,1],提供更细粒度的学习信号
- 设计动机:SFT 的自回归目标让模型也学上下文,RL 的奖励只关注抽象的正确性和忠实性
-
使用 GRPO 算法
-
符号推导的鲁棒性:
- 一旦模型学会忠实的抽象,无论输入的数字或名称怎么变,抽象公式不变,SymPy 都能正确求解
- 对干扰条件(distractor)的鲁棒性来自模型学会了识别"哪些条件参与推理"
损失函数 / 训练策略¶
SFT on GranulAR 数据 + GRPO with \(r_{answer}\) + \(r_{symbolic}\)。在 Qwen2.5 和 Llama3 系列(0.5B-7B)上验证。用 Llama-3.3-70B 构建训练数据。
实验关键数据¶
主实验(GSM 鲁棒性)¶
| 方法 | GSM-Symbolic Vary Both | Δ↓ | GSM-Plus Distract | Original |
|---|---|---|---|---|
| CoT-8S (Qwen-0.5B) | 34.0 | 10.6 | 22.7 | 42.4 |
| CoT-RL | 32.3 | 7.77 | 15.2 | 38.0 |
| SyReLM | 36.8 | 5.54 | 21.1 | 41.5 |
| AbstRaL | 44.6 | -1.27 | 25.3 | 46.3 |
关键发现¶
- Δ < 0:AbstRaL 在变体上的性能高于原始问题!说明抽象化不仅消除了分布偏移,还提升了基础推理
- 在 Qwen2.5-Math-7B 上,AbstRaL 也显著提升鲁棒性,且 GSM-Plus Distract 上提升最大——因为抽象化天然忽略干扰条件
- SFT-only(无 RL)产生的抽象经常不忠实——与问题不对齐。RL 通过奖励信号纠正了这个问题
- OOD 迁移效果:AbstRaL 在 AIME(数学竞赛)和 BBH(通用推理)上也有零样本提升——说明抽象思维能力具有跨领域泛化性
亮点与洞察¶
- "抽象化"是比"实例化"更高效的提升推理鲁棒性策略:不需要合成大量变体数据,直接教模型学习通用模式。类比:不是教模型做更多加法题,而是教它"加法"这个概念
- RL 对抽象学习的独特价值:SFT 被迫学习每个样本的表面上下文(自回归目标的固有缺陷),RL 的奖励函数可以专注于抽象的结构正确性
- 符号距离奖励的细粒度信号:不只是"对/错"的二元奖励,而是告诉模型"有多接近正确的抽象"——加速学习收敛
局限性 / 可改进方向¶
- 目前仅在 GSM(小学数学)上验证,更复杂的数学问题(如需要几何推理、证明)的抽象化可能更困难
- 条件识别步骤依赖 70B 模型的 few-shot prompting,小模型自主做条件识别的能力未充分探索
- SymPy 求解器对非方程类问题(如组合计数、概率)的覆盖有限
- 训练数据依赖 oracle LLM 改写的质量
相关工作与启发¶
- vs CoA / AoT(抽象推理方法): 这些方法用 in-context learning 做抽象,效果差。AbstRaL 用 SFT+RL 训练,大幅优于它们
- vs 数据增强策略: 合成更多实例需要大量数据和计算。AbstRaL 用相同的训练集直接学习抽象,更高效
- vs CoT-RL(标准 RL): CoT-RL 在原始 GSM 上也用 RL 但不学抽象,鲁棒性提升有限。AbstRaL 的抽象化是关键差异
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "教模型学抽象而非学更多实例"的理念很有原创性
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多规模、两个鲁棒性 benchmark、OOD 迁移、详细消融
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,框架图示直观
- 价值: ⭐⭐⭐⭐⭐ 为推理鲁棒性提供了新范式,抽象思维的可迁移性尤其有价值