PlanGenLLMs: A Modern Survey of LLM Planning Capabilities¶
会议: ACL 2025
arXiv: 2502.11221
代码: https://github.com/wll199566/Awesome-LLM-Planning-Capability
领域: LLM Agent
关键词: LLM规划, 综述, 任务分解, 搜索算法, Agent工作流
一句话总结¶
PlanGenLLMs 是一篇系统性综述,基于经典 AI 规划评估框架提出完整性、可执行性、最优性、表示、泛化性和效率六大评估准则,全面梳理了 LLM 作为规划器的方法、评估和未来方向。
研究背景与动机¶
- 领域现状:LLM 在各种规划任务(网页导航、旅行规划、数据库查询等)上展现潜力,大量工作涌现
- 现有痛点:
- 现有系统往往针对特定问题,跨领域比较困难
- 缺乏清晰一致的评估标准,难以判断哪种方法适合新任务
- 已有综述要么按方法分类(分解/选择/反思等)要么按领域分类,缺乏以评估准则为核心的系统框架
- 核心矛盾:LLM 规划领域快速发展但缺乏统一评估框架来对比和选择方法
- 本文要解决什么:建立以六大性能准则为核心的 LLM 规划综述框架
- 切入角度:继承经典 AI 规划评估框架 (Kartam & Wilkins 1990) 并扩展到 LLM 时代
- 核心idea一句话:用六大评估准则(完整性/可执行性/最优性/表示/泛化性/效率)系统审视 LLM 规划研究
方法详解¶
整体框架¶
综述分为三大部分:(1) LLM 规划基础 → (2) 六大性能准则详细分析 → (3) 评估资源(数据集/方法/指标)。涵盖 100+ 篇论文。
关键设计¶
- LLM 规划四大基础范式:
- 任务分解:将抽象目标分解为子目标(顺序/并行/异步/递归),如 DEPS、AdaPlanner、SelfGoal
- LLM + 经典规划器:LLM 将自然语言转为 PDDL,再用 Fast Downward 等求解,如 LLM+P、LLM-DP
- 搜索算法:将规划建模为搜索问题(DFS/BFS/MCTS/A*),用 LLM 做扩展和评估,如 ToT、RAP、LATS
-
微调:在规划特定任务或通用 Agent 数据上微调 LLM,如 Agent-FLAN、ETO
-
六大评估准则:
- 完整性 (Completeness):能否生成正确计划?能否识别不可行问题?即使 GPT-4/O1 也因幻觉难以识别无解问题
- 可执行性 (Executability):计划能否在环境中执行?包括对象接地、动作接地、采样过滤、闭环系统四种保障方法
- 最优性 (Optimality):能否找到最优计划?两种范式:LLM+优化器(如转为MILP)和 A 搜索(如 ToolChain)
- 表示 (Representation):输入输出如何格式化?LLM-as-Translator(NL↔PDDL)vs LLM-as-Planner(直接输出计划)
- 泛化性 (Generalization):能否推广到新场景?通过微调、泛化规划、技能存储(如 VOYAGER)
-
效率 (Efficiency):减少 LLM 调用次数、缩短输入输出、使用更小模型
-
评估资源全景:
- 数据集:规划专用(BlocksWorld/ALFRED/VirtualHome/TravelPlanner)+ 下游任务(SWE-Bench/WebArena/Mind2Web)
- 评估方法:验证器(VAL)、Ground Truth 对比、人工评估、LLM-as-Judge
- 指标:成功率、目标条件召回率、步骤成功率、可执行率、约束通过率等
实验关键数据¶
核心发现(来自综述分析)¶
| 准则 | 关键发现 |
|---|---|
| 完整性 | LLM 单独做规划正确率低,需结合经典求解器;识别无解问题是重大挑战 |
| 可执行性 | 闭环系统(环境反馈→重规划)显著优于开环;隐式(修复失败步骤)vs 显式(重新生成整个计划)各有利弊 |
| 最优性 | A* 搜索可保证最优但计算开销大;LLM+优化器适合有明确目标函数的场景 |
| 表示 | PDDL 翻译准确率仍不够高,代码表示(Pythonic)是有前途的替代 |
| 泛化性 | 仅做规划微调会损害通用能力,混合 Agent 任务微调更好 |
| 效率 | 搜索类方法 LLM 调用次数多,符号压缩可减少输入长度 |
关键差距与未来方向¶
- 表示:如何让 LLM 更准确地翻译为 PDDL
- 幻觉:规划中的幻觉检测与缓解
- 对齐:确保规划符合人类偏好和安全约束
- 多 Agent 规划:多个 Agent 的协调与通信
- 与 Agentic 工作流的连接:规划如何融入更大的 Agent 系统
亮点与洞察¶
- 六大准则框架很有体系性,比按方法分类的综述更具指导意义——可以根据实际需求选择关注哪些准则
- 完整性和可执行性的区分很有教育意义:一个正确但不可执行的计划和一个可执行但不正确的计划都不行
- 闭环系统(反馈→重规划)是目前最实用的保障可执行性的方法,但如何高效闭环仍是开放问题
- 在效率方面,减少 LLM 调用次数比减少单次输入更重要
局限性 / 可改进方向¶
- 综述以分类和分析为主,缺乏跨方法的实验对比
- 对强化学习做规划的方法讨论较少
- 不够覆盖多模态规划(视觉+语言)
- 一些最新的工作(如 2025 年推理模型 DeepSeek-R1 等)可能未纳入
相关工作与启发¶
- vs Huang et al. (2024) 综述: 按方法分类(分解/选择/反思/记忆),本文按评估准则分类,互补
- vs Li et al. (2024) 综述: 侧重评估 benchmark 综述,本文更关注方法分析
评分¶
- 新颖性: ⭐⭐⭐ 综述文章,新颖性在于评估框架的组织方式
- 实验充分度: ⭐⭐⭐ 综述无原创实验,但文献覆盖全面
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、分类图精美、每个准则都有详细分析
- 价值: ⭐⭐⭐⭐⭐ 对做Agent/规划的研究者极具参考价值