Beyond ReAct: A Planner-Centric Framework for Complex Tool-Augmented LLM Reasoning¶
会议: AAAI 2026
arXiv: 2511.10037
代码: https://github.com/weixiaolong94-hub/Beyond-React
领域: Agent / LLM
关键词: 工具增强LLM, DAG规划, Plan-Execute范式, GRPO强化学习, 多工具编排
一句话总结¶
提出以Planner为核心的Plan-Execute框架,将复杂查询转化为DAG执行计划,通过SFT+GRPO两阶段训练专门的Planner模型,在ComplexTool-Plan和StableToolBench上超越ReAct等反应式方法,用更少推理步骤实现更高成功率。
背景与动机¶
当前工具增强LLM主要依赖ReAct等反应式(reactive)框架,逐步决策、逐步执行。这种范式在简单查询上可行,但面对复杂的多工具组合任务时存在根本性缺陷:局部最优陷阱。每一步决策只关注当前状态,缺乏全局规划能力,无法发现任务中固有的并行执行机会。Tree-of-Thought等搜索方法虽有改进,但本质仍在寻找最优序列路径,计算开销大且忽视并行性。
核心痛点: 1. ReAct的增量决策无法建模复杂的工具间依赖关系 2. 现有方法缺少大规模、结构化的复杂规划训练数据 3. 规划质量的评估本身就是非trivial的问题
核心问题¶
如何让LLM在面对需要多工具协同的复杂查询时,一次性生成全局最优的执行计划,而非逐步试错?本文将这个问题转化为:给定查询Q和工具集T,学习策略π将其映射为DAG结构的执行计划G=(V,E)。
方法详解¶
整体框架¶
框架分为Planning和Execution两个解耦的阶段: 1. Planner接收用户查询和可用工具集,生成DAG执行计划(节点=工具,边=数据依赖) 2. Executor(如GPT-4o)按DAG的拓扑序执行各工具调用,支持并行执行无依赖节点
训练流程:先构建ComplexTool-Plan数据集 → SFT冷启动 → GRPO强化学习精调。
关键设计¶
- ComplexTool-Plan数据集构建(三阶段自动化流水线):
- Workflow生成:用DeepSeek-V3从4,535个ModelScope工具API中采样子集,生成结构复杂的DAG执行计划
- Query逆向工程:再用DeepSeek-V3从DAG反推自然语言查询,相当于"给答案编题目"
- 意图分析与重新规划:用教师模型仅根据生成的query重新规划DAG,确保(Q, G)对的高保真度——过滤掉query描述不清导致无法复原原始DAG的样本
最终数据集包含3,000个SFT实例,分Easy/Medium/Hard三个难度等级。难度越高,可选工具越多、需用工具也越多。
- DAG作为执行计划的结构化表示:
- 节点V⊆T代表选择的工具
- 有向边E代表数据依赖关系
- 支持并行执行:无依赖关系的节点可同时调用
-
比线性序列更灵活,能建模复杂的分支和汇聚逻辑
-
RL训练集精炼:
- 用SFT模型过滤训练数据:去掉模型已能稳定解决的(无学习信号)和完全无法解决的(太难)
- 保留高方差实例(787个),聚焦于模型能力边界,避免策略退化
损失函数 / 训练策略¶
两阶段训练:
阶段1:SFT冷启动
在Qwen3系列(0.6B/1.7B/4B/8B)上最小化NLL损失:
$\(\mathcal{L}_{\text{SFT}}(\theta) = -\mathbb{E}_{(Q,G_{gt})\sim D_{\text{train}}}[\log P(G_{gt}|Q,T;\theta)]\)$
阶段2:GRPO强化学习
使用层次化奖励函数R(y),严格按优先级评估计划质量:
| 层级 | 检查内容 | 奖励/惩罚 |
|---|---|---|
| Level 1 | 语法错误(非JSON格式) | -10.0 |
| Level 2 | 存在环(非DAG) | -10.0 |
| Level 3 | 连通性缺陷(孤立节点) | -2.0 |
| Level 4 | 边F1分数 | 5 × Edge F1 |
| Level 5 | 完美匹配奖励 | +5.0 |
奖励域为[-10.0, +10.0],fail-fast设计:高层级惩罚直接终止评估。这个层次化设计巧妙之处在于区分了结构错误(致命)和策略错误(可改进),给模型提供了多维度的梯度信号。
实验关键数据¶
ComplexTool-Plan规划质量(Easy集)¶
| 方法 | Node F1 | Edge F1 | DAG EM |
|---|---|---|---|
| GPT-4o | 0.929 | 0.779 | 0.635 |
| Claude-3.7 | 0.949 | 0.815 | 0.644 |
| DeepSeek-V3 | 0.770 | 0.643 | 0.511 |
| Qwen3-0.6B (SFT) | 0.968 | 0.848 | 0.671 |
| Qwen3-1.7B (SFT+RL) | 0.979 | 0.879 | 0.756 |
| Qwen3-8B (SFT+RL) | 0.984 | 0.906 | 0.803 |
ComplexTool-Plan规划质量(Hard集)¶
| 方法 | Node F1 | Edge F1 | DAG EM |
|---|---|---|---|
| GPT-4o | 0.856 | 0.464 | 0.098 |
| Claude-3.7 | 0.897 | 0.491 | 0.106 |
| Qwen3-8B (SFT) | 0.910 | 0.657 | 0.295 |
| Qwen3-8B (SFT+RL) | 0.904 | 0.659 | 0.319 |
关键发现:Hard集上所有模型DAG EM暴跌,GPT-4o仅0.098,而Qwen3-8B(SFT+RL)达到0.319——专门训练的小模型显著超越通用大模型。
StableToolBench端到端执行¶
| 方法 | 平均SoPR | 平均SoWR |
|---|---|---|
| GPT-3.5 (ReAct) | 47.9 | — |
| GPT-4 (ReAct) | 48.2 | 58.7 |
| GPT-4 (DFSDT) | 70.3 | 64.2 |
| ToolLLaMA (DFSDT) | 54.2 | 47.1 |
| LLMCompiler | 36.2 | 37.9 |
| Qwen3-8B (RL) + GPT-4o | 59.8 | 55.0 |
平均推理步数:本文方法仅2.29步,显著少于DTA-Llama(2.48步)和GPT-4 ReAct(3.27-4.23步)。
消融实验要点¶
- SFT→SFT+RL:在Easy集上Qwen3-8B的DAG EM从0.781→0.803;Hard集从0.295→0.319(+8.1%相对提升)。RL主要改善的是边预测(依赖关系),而非节点选择(工具选择)
- 模型规模效应:从Easy到Hard集,1.7B模型精度暴跌71.2%(0.756→0.218),8B模型仅跌60.3%(0.803→0.319),大模型抗复杂度能力更强
- Qwen3-0.6B的RL训练不稳定:模型容量不足导致reward hacking——模型学会了用简单策略避免惩罚而非真正解决问题。这揭示了RL训练对模型容量的下界要求
- SoPR vs 迭代方法:DTA-Llama等迭代方法SoPR更高,但依赖多轮执行中纠错;本文单次规划范式更高效(步数最少),但缺少纠错机制
亮点¶
- DAG作为规划表示的思路直觉且有效:将复杂任务分解为工具节点和依赖边,天然支持并行执行,比线性chain更灵活
- 数据构建的"反向工程"流水线很巧妙:先生成workflow再反推query,最后用重规划做质量过滤,解决了"没有正确规划数据"的bootstrapping问题
- 层次化奖励函数设计精良:fail-fast + 区分结构/策略错误 + 连续F1分数,给RL提供了丰富的梯度信号
- Plan-Execute解耦架构允许Planner和Executor独立迭代升级,工程上更灵活
- 用SFT模型筛选RL训练集的做法,参考了self-play思想,避免了在太简单/太难样本上浪费训练资源
局限性 / 可改进方向¶
- 单次规划无纠错:plan-then-execute范式一旦规划出错就没有修正机会,这是与迭代方法(如DTA-Llama、Reflexion)相比的核心劣势。实际应用中query可能有歧义,一次性规划的假设过强
- Hard集DAG EM仍然很低:即使最好的模型也只有0.319,说明复杂规划问题远未解决
- 依赖外部Executor质量:端到端效果高度依赖执行器(用的是GPT-4o),Planner的规划质量无法独立保证端到端成功
- ComplexTool-Plan数据集的偏差:训练数据由DeepSeek-V3生成,可能继承其规划偏好和盲区,泛化性存疑
- 仅在StableToolBench上验证:虽然是主流benchmark,但其API模拟器和缓存机制与真实API环境有差距
- 缺少与最新Agent框架的对比:如AutoGen、CrewAI等多Agent编排框架,以及OpenAI的function calling native支持
- 潜在改进:引入轻量级re-planning机制(在执行中发现某工具调用失败时局部重新规划),平衡效率和鲁棒性
与相关工作的对比¶
- vs ReAct: ReAct是step-by-step的反应式框架,每步think-act-observe。本文认为这种逐步决策天然陷入局部最优,复杂任务需要全局规划。实验中GPT-4(ReAct)的SoPR仅48.2%,远低于本文的59.8%
- vs LLMCompiler: LLMCompiler也做并行工具调用,但它仍在ReAct框架内做局部并行化。本文的根本区别是将规划提升为独立阶段,用专门训练的模型做全局DAG生成
- vs DTA-Llama/迭代方法: 迭代方法通过多轮执行-反思-重试来纠错,SoPR可能更高。本文方法是非迭代的,只做一次规划,优势在于效率(最少推理步数)和可预测性,劣势在于缺少纠错能力
启发与关联¶
- DAG规划+RL训练的思路可以迁移到其他需要复杂workflow编排的场景(如多模态任务、科学实验自动化)
- 层次化奖励函数的设计模式(结构检查→语义检查→质量打分)适用于任何需要评估结构化输出的RL场景
- 数据构建的"正向生成+反向验证"流水线可复用于其他需要bootstrapping训练数据的任务
- 与Hierarchical FSM GUI Agent思路相关:都在探索如何给Agent加入更强的结构化规划能力,但本文用DAG,那篇用FSM
- 值得思考:plan-then-execute vs 迭代反思,是否能设计一个混合范式——对简单子任务用单次规划,对不确定子任务保留反思机会?
评分¶
- 新颖性: ⭐⭐⭐⭐ DAG规划+GRPO训练的组合有新意,但plan-execute解耦本身不算新(PAL、PoT等已有探索),核心贡献更偏工程实现
- 实验充分度: ⭐⭐⭐⭐ 覆盖了规划质量和端到端两个维度,消融实验详细;但缺少与最新Agent框架的对比,Hard集结果说明问题远未解决
- 写作质量: ⭐⭐⭐⭐ 结构清晰,问题定义明确,图表设计合理;但Related Work部分引用太密集影响可读性
- 价值: ⭐⭐⭐⭐ 对Agent规划领域有实际指导意义,数据构建流水线和层次化奖励设计可复用;但单次规划的限制降低了实用价值