AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking¶

会议: ICLR 2026
arXiv: 2506.07751
代码: 有
领域: LLM推理
关键词: abstract reasoning, reinforcement learning, GSM robustness, symbolic reasoning, distribution shift

一句话总结¶

提出 AbstRaL，通过强化学习教 LLM 学习推理问题的数学抽象（将具体数字/名称替换为符号变量、提取通用公式），然后用符号求解器推导答案，在 GSM 扰动 benchmark 上几乎完全消除了分布偏移导致的性能下降，并在 OOD 数学/通用推理任务上也有隐式提升。

研究背景与动机¶

领域现状：LLM 在 GSM 等小学数学上表现不错，但面对分布偏移（改变数字、改变人名、插入干扰条件）时性能显著下降，暴露了推理的脆弱性。
现有痛点：改善鲁棒性的常见方法是合成更多实例化变体来扩充训练数据——但计算成本高且效果有限。另一种方法是抽象推理（CoA、AoT），但现有方法要么依赖 in-context learning（效果差），要么用 SFT 训练（产生的抽象不忠实）。
核心矛盾：SFT 的自回归目标迫使模型也学习每个训练样本的具体上下文，阻碍了学习跨实例通用的抽象思维。需要一种训练方式让模型聚焦于抽象结构而非表面上下文。
本文要解决什么？ 如何让 LLM 学会构建忠实的数学抽象，使推理对输入的上下文变化不变？
切入角度：不扩充数据，而是直接教 LLM 学习"抽象化"技能——将问题变量化→用符号推理→用求解器算答案。用 RL 而非仅 SFT 来保证抽象的忠实性。
核心idea一句话：用 RL + 细粒度抽象奖励教 LLM "抽象思考"——将具体推理问题转化为符号公式再求解。

方法详解¶

整体框架¶

AbstRaL 四步流水线：(1) 条件识别——用 LLM 解析出问题中的数值/变量并赋予抽象符号；(2) 抽象推理——LLM 用抽象符号生成推理链和数学公式；(3) 抽象提取——正则匹配提取公式；(4) 符号推导——用 SymPy 求解器计算最终答案。核心是步骤 2 的学习。

关键设计¶

GranulAR 训练数据:
做什么：构建细粒度抽象推理训练数据
核心思路：将已有 socratic CoT 数据中的具体值替换为抽象符号（如 in0, out0），保留推理结构。用 Llama-3.3-70B 改写，然后用 SymPy 验证改写后的公式是否能推导出正确答案
设计动机：将抽象推理嵌入 LLM 已经熟悉的 CoT+分步分解格式中（接近预训练分布），降低学习难度
RL 抽象奖励设计:
做什么：用两个无需训练 reward model 的奖励来强化抽象推理
答案正确性奖励 \(r_{answer}\)：用 SymPy 验证模型生成的抽象 \(\tilde{\mathcal{A}}\) + 原条件 \(\mathcal{C}\) 能否推导出正确答案，正确给正奖励，否则 0
符号距离奖励 \(r_{symbolic}\)：计算生成抽象 \(\tilde{\mathcal{A}}\) 与金标准抽象 \(\mathcal{A}\) 之间的 token 级编辑距离，归一化到 [0,1]，提供更细粒度的学习信号
设计动机：SFT 的自回归目标让模型也学上下文，RL 的奖励只关注抽象的正确性和忠实性
使用 GRPO 算法
符号推导的鲁棒性:
一旦模型学会忠实的抽象，无论输入的数字或名称怎么变，抽象公式不变，SymPy 都能正确求解
对干扰条件（distractor）的鲁棒性来自模型学会了识别"哪些条件参与推理"

损失函数 / 训练策略¶

SFT on GranulAR 数据 + GRPO with \(r_{answer}\) + \(r_{symbolic}\)。在 Qwen2.5 和 Llama3 系列（0.5B-7B）上验证。用 Llama-3.3-70B 构建训练数据。

实验关键数据¶

主实验（GSM 鲁棒性）¶

方法	GSM-Symbolic Vary Both	Δ↓	GSM-Plus Distract	Original
CoT-8S (Qwen-0.5B)	34.0	10.6	22.7	42.4
CoT-RL	32.3	7.77	15.2	38.0
SyReLM	36.8	5.54	21.1	41.5
AbstRaL	44.6	-1.27	25.3	46.3

关键发现¶

Δ < 0：AbstRaL 在变体上的性能高于原始问题！说明抽象化不仅消除了分布偏移，还提升了基础推理
在 Qwen2.5-Math-7B 上，AbstRaL 也显著提升鲁棒性，且 GSM-Plus Distract 上提升最大——因为抽象化天然忽略干扰条件
SFT-only（无 RL）产生的抽象经常不忠实——与问题不对齐。RL 通过奖励信号纠正了这个问题
OOD 迁移效果：AbstRaL 在 AIME（数学竞赛）和 BBH（通用推理）上也有零样本提升——说明抽象思维能力具有跨领域泛化性

亮点与洞察¶

"抽象化"是比"实例化"更高效的提升推理鲁棒性策略：不需要合成大量变体数据，直接教模型学习通用模式。类比：不是教模型做更多加法题，而是教它"加法"这个概念
RL 对抽象学习的独特价值：SFT 被迫学习每个样本的表面上下文（自回归目标的固有缺陷），RL 的奖励函数可以专注于抽象的结构正确性
符号距离奖励的细粒度信号：不只是"对/错"的二元奖励，而是告诉模型"有多接近正确的抽象"——加速学习收敛

局限性 / 可改进方向¶

目前仅在 GSM（小学数学）上验证，更复杂的数学问题（如需要几何推理、证明）的抽象化可能更困难
条件识别步骤依赖 70B 模型的 few-shot prompting，小模型自主做条件识别的能力未充分探索
SymPy 求解器对非方程类问题（如组合计数、概率）的覆盖有限
训练数据依赖 oracle LLM 改写的质量

评分¶

新颖性: ⭐⭐⭐⭐⭐ "教模型学抽象而非学更多实例"的理念很有原创性
实验充分度: ⭐⭐⭐⭐⭐ 多模型、多规模、两个鲁棒性 benchmark、OOD 迁移、详细消融
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，框架图示直观
价值: ⭐⭐⭐⭐⭐ 为推理鲁棒性提供了新范式，抽象思维的可迁移性尤其有价值