PlanGenLLMs: A Modern Survey of LLM Planning Capabilities¶

会议: ACL 2025
arXiv: 2502.11221
代码: https://github.com/wll199566/Awesome-LLM-Planning-Capability
领域: LLM Agent
关键词: LLM规划, 综述, 任务分解, 搜索算法, Agent工作流

一句话总结¶

PlanGenLLMs 是一篇系统性综述，基于经典 AI 规划评估框架提出完整性、可执行性、最优性、表示、泛化性和效率六大评估准则，全面梳理了 LLM 作为规划器的方法、评估和未来方向。

研究背景与动机¶

领域现状：LLM 在各种规划任务（网页导航、旅行规划、数据库查询等）上展现潜力，大量工作涌现
现有痛点：
现有系统往往针对特定问题，跨领域比较困难
缺乏清晰一致的评估标准，难以判断哪种方法适合新任务
已有综述要么按方法分类（分解/选择/反思等）要么按领域分类，缺乏以评估准则为核心的系统框架
核心矛盾：LLM 规划领域快速发展但缺乏统一评估框架来对比和选择方法
本文要解决什么：建立以六大性能准则为核心的 LLM 规划综述框架
切入角度：继承经典 AI 规划评估框架 (Kartam & Wilkins 1990) 并扩展到 LLM 时代
核心idea一句话：用六大评估准则（完整性/可执行性/最优性/表示/泛化性/效率）系统审视 LLM 规划研究

方法详解¶

整体框架¶

综述分为三大部分：(1) LLM 规划基础 → (2) 六大性能准则详细分析 → (3) 评估资源（数据集/方法/指标）。涵盖 100+ 篇论文。

关键设计¶

LLM 规划四大基础范式:
任务分解：将抽象目标分解为子目标（顺序/并行/异步/递归），如 DEPS、AdaPlanner、SelfGoal
LLM + 经典规划器：LLM 将自然语言转为 PDDL，再用 Fast Downward 等求解，如 LLM+P、LLM-DP
搜索算法：将规划建模为搜索问题（DFS/BFS/MCTS/A*），用 LLM 做扩展和评估，如 ToT、RAP、LATS
微调：在规划特定任务或通用 Agent 数据上微调 LLM，如 Agent-FLAN、ETO
六大评估准则:
完整性 (Completeness)：能否生成正确计划？能否识别不可行问题？即使 GPT-4/O1 也因幻觉难以识别无解问题
可执行性 (Executability)：计划能否在环境中执行？包括对象接地、动作接地、采样过滤、闭环系统四种保障方法
最优性 (Optimality)：能否找到最优计划？两种范式：LLM+优化器（如转为MILP）和 A 搜索（如 ToolChain）
表示 (Representation)：输入输出如何格式化？LLM-as-Translator（NL↔PDDL）vs LLM-as-Planner（直接输出计划）
泛化性 (Generalization)：能否推广到新场景？通过微调、泛化规划、技能存储（如 VOYAGER）
效率 (Efficiency)：减少 LLM 调用次数、缩短输入输出、使用更小模型
评估资源全景:
数据集：规划专用（BlocksWorld/ALFRED/VirtualHome/TravelPlanner）+ 下游任务（SWE-Bench/WebArena/Mind2Web）
评估方法：验证器（VAL）、Ground Truth 对比、人工评估、LLM-as-Judge
指标：成功率、目标条件召回率、步骤成功率、可执行率、约束通过率等

实验关键数据¶

核心发现（来自综述分析）¶

准则	关键发现
完整性	LLM 单独做规划正确率低，需结合经典求解器；识别无解问题是重大挑战
可执行性	闭环系统（环境反馈→重规划）显著优于开环；隐式（修复失败步骤）vs 显式（重新生成整个计划）各有利弊
最优性	A* 搜索可保证最优但计算开销大；LLM+优化器适合有明确目标函数的场景
表示	PDDL 翻译准确率仍不够高，代码表示（Pythonic）是有前途的替代
泛化性	仅做规划微调会损害通用能力，混合 Agent 任务微调更好
效率	搜索类方法 LLM 调用次数多，符号压缩可减少输入长度

关键差距与未来方向¶

表示：如何让 LLM 更准确地翻译为 PDDL
幻觉：规划中的幻觉检测与缓解
对齐：确保规划符合人类偏好和安全约束
多 Agent 规划：多个 Agent 的协调与通信
与 Agentic 工作流的连接：规划如何融入更大的 Agent 系统

亮点与洞察¶

六大准则框架很有体系性，比按方法分类的综述更具指导意义——可以根据实际需求选择关注哪些准则
完整性和可执行性的区分很有教育意义：一个正确但不可执行的计划和一个可执行但不正确的计划都不行
闭环系统（反馈→重规划）是目前最实用的保障可执行性的方法，但如何高效闭环仍是开放问题
在效率方面，减少 LLM 调用次数比减少单次输入更重要

局限性 / 可改进方向¶

综述以分类和分析为主，缺乏跨方法的实验对比
对强化学习做规划的方法讨论较少
不够覆盖多模态规划（视觉+语言）
一些最新的工作（如 2025 年推理模型 DeepSeek-R1 等）可能未纳入

评分¶

新颖性: ⭐⭐⭐ 综述文章，新颖性在于评估框架的组织方式
实验充分度: ⭐⭐⭐ 综述无原创实验，但文献覆盖全面
写作质量: ⭐⭐⭐⭐⭐ 结构清晰、分类图精美、每个准则都有详细分析
价值: ⭐⭐⭐⭐⭐ 对做Agent/规划的研究者极具参考价值