Beyond ReAct: A Planner-Centric Framework for Complex Tool-Augmented LLM Reasoning¶

会议: AAAI 2026
arXiv: 2511.10037
代码: https://github.com/weixiaolong94-hub/Beyond-React
领域: Agent / LLM
关键词: 工具增强LLM, DAG规划, Plan-Execute范式, GRPO强化学习, 多工具编排

一句话总结¶

提出以Planner为核心的Plan-Execute框架，将复杂查询转化为DAG执行计划，通过SFT+GRPO两阶段训练专门的Planner模型，在ComplexTool-Plan和StableToolBench上超越ReAct等反应式方法，用更少推理步骤实现更高成功率。

背景与动机¶

当前工具增强LLM主要依赖ReAct等反应式（reactive）框架，逐步决策、逐步执行。这种范式在简单查询上可行，但面对复杂的多工具组合任务时存在根本性缺陷：局部最优陷阱。每一步决策只关注当前状态，缺乏全局规划能力，无法发现任务中固有的并行执行机会。Tree-of-Thought等搜索方法虽有改进，但本质仍在寻找最优序列路径，计算开销大且忽视并行性。

核心痛点： 1. ReAct的增量决策无法建模复杂的工具间依赖关系 2. 现有方法缺少大规模、结构化的复杂规划训练数据 3. 规划质量的评估本身就是非trivial的问题

核心问题¶

如何让LLM在面对需要多工具协同的复杂查询时，一次性生成全局最优的执行计划，而非逐步试错？本文将这个问题转化为：给定查询Q和工具集T，学习策略π将其映射为DAG结构的执行计划G=(V,E)。

方法详解¶

整体框架¶

框架分为Planning和Execution两个解耦的阶段： 1. Planner接收用户查询和可用工具集，生成DAG执行计划（节点=工具，边=数据依赖） 2. Executor（如GPT-4o）按DAG的拓扑序执行各工具调用，支持并行执行无依赖节点

训练流程：先构建ComplexTool-Plan数据集 → SFT冷启动 → GRPO强化学习精调。

关键设计¶

ComplexTool-Plan数据集构建（三阶段自动化流水线）：
Workflow生成：用DeepSeek-V3从4,535个ModelScope工具API中采样子集，生成结构复杂的DAG执行计划
Query逆向工程：再用DeepSeek-V3从DAG反推自然语言查询，相当于"给答案编题目"
意图分析与重新规划：用教师模型仅根据生成的query重新规划DAG，确保(Q, G)对的高保真度——过滤掉query描述不清导致无法复原原始DAG的样本

最终数据集包含3,000个SFT实例，分Easy/Medium/Hard三个难度等级。难度越高，可选工具越多、需用工具也越多。

DAG作为执行计划的结构化表示：
节点V⊆T代表选择的工具
有向边E代表数据依赖关系
支持并行执行：无依赖关系的节点可同时调用
比线性序列更灵活，能建模复杂的分支和汇聚逻辑
RL训练集精炼：
用SFT模型过滤训练数据：去掉模型已能稳定解决的（无学习信号）和完全无法解决的（太难）
保留高方差实例（787个），聚焦于模型能力边界，避免策略退化

损失函数 / 训练策略¶

两阶段训练：

阶段1：SFT冷启动
在Qwen3系列（0.6B/1.7B/4B/8B）上最小化NLL损失： $$\mathcal{L}_{\text{SFT}}(\theta) = -\mathbb{E}_{(Q,G_{gt})\sim D_{\text{train}}}[\log P(G_{gt}|Q,T;\theta)]$$

阶段2：GRPO强化学习
使用层次化奖励函数R(y)，严格按优先级评估计划质量：

层级	检查内容	奖励/惩罚
Level 1	语法错误（非JSON格式）	-10.0
Level 2	存在环（非DAG）	-10.0
Level 3	连通性缺陷（孤立节点）	-2.0
Level 4	边F1分数	5 × Edge F1
Level 5	完美匹配奖励	+5.0

奖励域为[-10.0, +10.0]，fail-fast设计：高层级惩罚直接终止评估。这个层次化设计巧妙之处在于区分了结构错误（致命）和策略错误（可改进），给模型提供了多维度的梯度信号。

实验关键数据¶

ComplexTool-Plan规划质量（Easy集）¶

方法	Node F1	Edge F1	DAG EM
GPT-4o	0.929	0.779	0.635
Claude-3.7	0.949	0.815	0.644
DeepSeek-V3	0.770	0.643	0.511
Qwen3-0.6B (SFT)	0.968	0.848	0.671
Qwen3-1.7B (SFT+RL)	0.979	0.879	0.756
Qwen3-8B (SFT+RL)	0.984	0.906	0.803

ComplexTool-Plan规划质量（Hard集）¶

方法	Node F1	Edge F1	DAG EM
GPT-4o	0.856	0.464	0.098
Claude-3.7	0.897	0.491	0.106
Qwen3-8B (SFT)	0.910	0.657	0.295
Qwen3-8B (SFT+RL)	0.904	0.659	0.319

关键发现：Hard集上所有模型DAG EM暴跌，GPT-4o仅0.098，而Qwen3-8B(SFT+RL)达到0.319——专门训练的小模型显著超越通用大模型。

StableToolBench端到端执行¶

方法	平均SoPR	平均SoWR
GPT-3.5 (ReAct)	47.9	—
GPT-4 (ReAct)	48.2	58.7
GPT-4 (DFSDT)	70.3	64.2
ToolLLaMA (DFSDT)	54.2	47.1
LLMCompiler	36.2	37.9
Qwen3-8B (RL) + GPT-4o	59.8	55.0

平均推理步数：本文方法仅2.29步，显著少于DTA-Llama(2.48步)和GPT-4 ReAct(3.27-4.23步)。

消融实验要点¶

SFT→SFT+RL：在Easy集上Qwen3-8B的DAG EM从0.781→0.803；Hard集从0.295→0.319（+8.1%相对提升）。RL主要改善的是边预测（依赖关系），而非节点选择（工具选择）
模型规模效应：从Easy到Hard集，1.7B模型精度暴跌71.2%(0.756→0.218)，8B模型仅跌60.3%(0.803→0.319)，大模型抗复杂度能力更强
Qwen3-0.6B的RL训练不稳定：模型容量不足导致reward hacking——模型学会了用简单策略避免惩罚而非真正解决问题。这揭示了RL训练对模型容量的下界要求
SoPR vs 迭代方法：DTA-Llama等迭代方法SoPR更高，但依赖多轮执行中纠错；本文单次规划范式更高效（步数最少），但缺少纠错机制

亮点¶

DAG作为规划表示的思路直觉且有效：将复杂任务分解为工具节点和依赖边，天然支持并行执行，比线性chain更灵活
数据构建的"反向工程"流水线很巧妙：先生成workflow再反推query，最后用重规划做质量过滤，解决了"没有正确规划数据"的bootstrapping问题
层次化奖励函数设计精良：fail-fast + 区分结构/策略错误 + 连续F1分数，给RL提供了丰富的梯度信号
Plan-Execute解耦架构允许Planner和Executor独立迭代升级，工程上更灵活
用SFT模型筛选RL训练集的做法，参考了self-play思想，避免了在太简单/太难样本上浪费训练资源

局限性 / 可改进方向¶

单次规划无纠错：plan-then-execute范式一旦规划出错就没有修正机会，这是与迭代方法（如DTA-Llama、Reflexion）相比的核心劣势。实际应用中query可能有歧义，一次性规划的假设过强
Hard集DAG EM仍然很低：即使最好的模型也只有0.319，说明复杂规划问题远未解决
依赖外部Executor质量：端到端效果高度依赖执行器（用的是GPT-4o），Planner的规划质量无法独立保证端到端成功
ComplexTool-Plan数据集的偏差：训练数据由DeepSeek-V3生成，可能继承其规划偏好和盲区，泛化性存疑
仅在StableToolBench上验证：虽然是主流benchmark，但其API模拟器和缓存机制与真实API环境有差距
缺少与最新Agent框架的对比：如AutoGen、CrewAI等多Agent编排框架，以及OpenAI的function calling native支持
潜在改进：引入轻量级re-planning机制（在执行中发现某工具调用失败时局部重新规划），平衡效率和鲁棒性

与相关工作的对比¶

vs ReAct: ReAct是step-by-step的反应式框架，每步think-act-observe。本文认为这种逐步决策天然陷入局部最优，复杂任务需要全局规划。实验中GPT-4(ReAct)的SoPR仅48.2%，远低于本文的59.8%
vs LLMCompiler: LLMCompiler也做并行工具调用，但它仍在ReAct框架内做局部并行化。本文的根本区别是将规划提升为独立阶段，用专门训练的模型做全局DAG生成
vs DTA-Llama/迭代方法: 迭代方法通过多轮执行-反思-重试来纠错，SoPR可能更高。本文方法是非迭代的，只做一次规划，优势在于效率（最少推理步数）和可预测性，劣势在于缺少纠错能力

启发与关联¶

DAG规划+RL训练的思路可以迁移到其他需要复杂workflow编排的场景（如多模态任务、科学实验自动化）
层次化奖励函数的设计模式（结构检查→语义检查→质量打分）适用于任何需要评估结构化输出的RL场景
数据构建的"正向生成+反向验证"流水线可复用于其他需要bootstrapping训练数据的任务
与Hierarchical FSM GUI Agent思路相关：都在探索如何给Agent加入更强的结构化规划能力，但本文用DAG，那篇用FSM
值得思考：plan-then-execute vs 迭代反思，是否能设计一个混合范式——对简单子任务用单次规划，对不确定子任务保留反思机会？

评分¶

新颖性: ⭐⭐⭐⭐ DAG规划+GRPO训练的组合有新意，但plan-execute解耦本身不算新（PAL、PoT等已有探索），核心贡献更偏工程实现
实验充分度: ⭐⭐⭐⭐ 覆盖了规划质量和端到端两个维度，消融实验详细；但缺少与最新Agent框架的对比，Hard集结果说明问题远未解决
写作质量: ⭐⭐⭐⭐ 结构清晰，问题定义明确，图表设计合理；但Related Work部分引用太密集影响可读性
价值: ⭐⭐⭐⭐ 对Agent规划领域有实际指导意义，数据构建流水线和层次化奖励设计可复用；但单次规划的限制降低了实用价值