跳转至

PlanGenLLMs: A Modern Survey of LLM Planning Capabilities

会议: ACL 2025
arXiv: 2502.11221
代码: https://github.com/wll199566/Awesome-LLM-Planning-Capability
领域: LLM Agent
关键词: LLM规划, 综述, 任务分解, 搜索算法, Agent工作流

一句话总结

PlanGenLLMs 是一篇系统性综述,基于经典 AI 规划评估框架提出完整性、可执行性、最优性、表示、泛化性和效率六大评估准则,全面梳理了 LLM 作为规划器的方法、评估和未来方向。

研究背景与动机

  1. 领域现状:LLM 在各种规划任务(网页导航、旅行规划、数据库查询等)上展现潜力,大量工作涌现
  2. 现有痛点
  3. 现有系统往往针对特定问题,跨领域比较困难
  4. 缺乏清晰一致的评估标准,难以判断哪种方法适合新任务
  5. 已有综述要么按方法分类(分解/选择/反思等)要么按领域分类,缺乏以评估准则为核心的系统框架
  6. 核心矛盾:LLM 规划领域快速发展但缺乏统一评估框架来对比和选择方法
  7. 本文要解决什么:建立以六大性能准则为核心的 LLM 规划综述框架
  8. 切入角度:继承经典 AI 规划评估框架 (Kartam & Wilkins 1990) 并扩展到 LLM 时代
  9. 核心idea一句话:用六大评估准则(完整性/可执行性/最优性/表示/泛化性/效率)系统审视 LLM 规划研究

方法详解

整体框架

综述分为三大部分:(1) LLM 规划基础 → (2) 六大性能准则详细分析 → (3) 评估资源(数据集/方法/指标)。涵盖 100+ 篇论文。

关键设计

  1. LLM 规划四大基础范式:
  2. 任务分解:将抽象目标分解为子目标(顺序/并行/异步/递归),如 DEPS、AdaPlanner、SelfGoal
  3. LLM + 经典规划器:LLM 将自然语言转为 PDDL,再用 Fast Downward 等求解,如 LLM+P、LLM-DP
  4. 搜索算法:将规划建模为搜索问题(DFS/BFS/MCTS/A*),用 LLM 做扩展和评估,如 ToT、RAP、LATS
  5. 微调:在规划特定任务或通用 Agent 数据上微调 LLM,如 Agent-FLAN、ETO

  6. 六大评估准则:

  7. 完整性 (Completeness):能否生成正确计划?能否识别不可行问题?即使 GPT-4/O1 也因幻觉难以识别无解问题
  8. 可执行性 (Executability):计划能否在环境中执行?包括对象接地、动作接地、采样过滤、闭环系统四种保障方法
  9. 最优性 (Optimality):能否找到最优计划?两种范式:LLM+优化器(如转为MILP)和 A 搜索(如 ToolChain
  10. 表示 (Representation):输入输出如何格式化?LLM-as-Translator(NL↔PDDL)vs LLM-as-Planner(直接输出计划)
  11. 泛化性 (Generalization):能否推广到新场景?通过微调、泛化规划、技能存储(如 VOYAGER)
  12. 效率 (Efficiency):减少 LLM 调用次数、缩短输入输出、使用更小模型

  13. 评估资源全景:

  14. 数据集:规划专用(BlocksWorld/ALFRED/VirtualHome/TravelPlanner)+ 下游任务(SWE-Bench/WebArena/Mind2Web)
  15. 评估方法:验证器(VAL)、Ground Truth 对比、人工评估、LLM-as-Judge
  16. 指标:成功率、目标条件召回率、步骤成功率、可执行率、约束通过率等

实验关键数据

核心发现(来自综述分析)

准则 关键发现
完整性 LLM 单独做规划正确率低,需结合经典求解器;识别无解问题是重大挑战
可执行性 闭环系统(环境反馈→重规划)显著优于开环;隐式(修复失败步骤)vs 显式(重新生成整个计划)各有利弊
最优性 A* 搜索可保证最优但计算开销大;LLM+优化器适合有明确目标函数的场景
表示 PDDL 翻译准确率仍不够高,代码表示(Pythonic)是有前途的替代
泛化性 仅做规划微调会损害通用能力,混合 Agent 任务微调更好
效率 搜索类方法 LLM 调用次数多,符号压缩可减少输入长度

关键差距与未来方向

  • 表示:如何让 LLM 更准确地翻译为 PDDL
  • 幻觉:规划中的幻觉检测与缓解
  • 对齐:确保规划符合人类偏好和安全约束
  • 多 Agent 规划:多个 Agent 的协调与通信
  • 与 Agentic 工作流的连接:规划如何融入更大的 Agent 系统

亮点与洞察

  • 六大准则框架很有体系性,比按方法分类的综述更具指导意义——可以根据实际需求选择关注哪些准则
  • 完整性和可执行性的区分很有教育意义:一个正确但不可执行的计划和一个可执行但不正确的计划都不行
  • 闭环系统(反馈→重规划)是目前最实用的保障可执行性的方法,但如何高效闭环仍是开放问题
  • 在效率方面,减少 LLM 调用次数比减少单次输入更重要

局限性 / 可改进方向

  • 综述以分类和分析为主,缺乏跨方法的实验对比
  • 对强化学习做规划的方法讨论较少
  • 不够覆盖多模态规划(视觉+语言)
  • 一些最新的工作(如 2025 年推理模型 DeepSeek-R1 等)可能未纳入

相关工作与启发

  • vs Huang et al. (2024) 综述: 按方法分类(分解/选择/反思/记忆),本文按评估准则分类,互补
  • vs Li et al. (2024) 综述: 侧重评估 benchmark 综述,本文更关注方法分析

评分

  • 新颖性: ⭐⭐⭐ 综述文章,新颖性在于评估框架的组织方式
  • 实验充分度: ⭐⭐⭐ 综述无原创实验,但文献覆盖全面
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、分类图精美、每个准则都有详细分析
  • 价值: ⭐⭐⭐⭐⭐ 对做Agent/规划的研究者极具参考价值