On the Limit of Language Models as Planning Formalizers¶
会议: ACL 2025
arXiv: 2412.09879
代码: https://github.com/CassieHuang22/llm-as-pddl-formalizer
领域: LLM Agent
关键词: PDDL, 规划形式化, LLM推理, 神经符号, 自然语言到形式语言
一句话总结¶
系统评估"LLM-as-Formalizer"方法论的极限——首次要求 LLM 生成完整 PDDL 表示(而非部分),从不同自然度的文本描述中形式化规划领域,发现最强模型(GPT-4o/o3-mini/DeepSeek-R1)可有效形式化超越直接规划,但描述越自然性能越低,弱模型卡在语法错误而强模型面临语义错误。
研究背景与动机¶
- 领域现状:LLM 可以做非正式规划(如"派对建议")但无法生成可执行可验证的形式化计划。近期研究将 LLM 作为"形式化器"——将自然语言描述转化为 PDDL(规划域描述语言),再用确定性求解器找到计划。
- 现有痛点:(a) 之前的工作只让 LLM 生成部分 PDDL(如只生成问题文件而给定域文件)——不现实,真实用户不会提供 PDDL 组件;(b) 使用的文本描述高度模板化——几乎是 PDDL 的逐字翻译,不代表用户真实描述方式;(c) 在这些简化设定下的"成功"可能被高估。
- 核心矛盾:LLM 的信息提取能力强但形式推理能力弱——形式化(提取信息转为结构)应比直接规划(推理搜索)更适合 LLM,但到底能做到多好?在多"自然"的描述下仍然有效?
- 本文要解决什么? 在更严格和现实的设定下(完整 PDDL + 不同自然度描述)系统评估 LLM-as-Formalizer 的能力和极限。
- 切入角度:构建三种自然度的描述——高度模板化/中度模板化/自然语言,在四个规划领域上评估多个 LLM。
- 核心idea一句话:LLM 做形式化优于直接规划,但自然描述仍是瓶颈——弱模型出语法错,强模型出语义错。
方法详解¶
整体框架¶
(1) 构建三种自然度的规划描述数据集(高度模板化→中度模板化→自然)×四个规划领域(BlocksWorld/Logistics/Barman/MysteryBlocksWorld);(2) 对比两种 LLM 使用范式——LLM-as-Planner(直接生成计划)和 LLM-as-Formalizer(生成 PDDL 后用求解器找计划);(3) 评估多个 LLM 在可解性和正确性上的表现。
关键设计¶
- 三级自然度的描述构建:
- 高度模板化: 几乎逐字翻译 PDDL——列出所有前置条件和效果,使用谓词术语
- 中度模板化: 更自然但仍显式讨论前置条件和效果
- 自然语言: 模拟真实用户——用人类-模型协作方式生成,描述一般规则而非逐条列举,省略可推断的信息
-
设计动机:测试 LLM 在不同信息显式程度下的形式化能力
-
完整 PDDL 生成:
- 做什么:要求 LLM 同时生成域文件(\(\mathbb{DF}\))和问题文件(\(\mathbb{PF}\))
- 与之前工作的区别:之前只生成部分(如只生成 \(\mathbb{PF}\)),假设 \(\mathbb{DF}\) 已给定
-
设计动机:完整生成更接近真实使用场景
-
MysteryBlocksWorld 控制实验:
- 做什么:用无意义词替换所有实体/谓词/动作名来测试 LLM 是否依赖词汇记忆
- 设计动机:如果模型在混淆版上仍然能形式化成功,说明它理解了结构而非记忆了 BlocksWorld 的 PDDL
损失函数 / 训练策略¶
- 纯评估研究——无训练
- 评估 11 个 LLM:Gemma-2 (9B/27B)、LLaMA-3.1 (8B/70B/405B)、DeepSeek-R1 系列、GPT-4o、o3-mini
- 指标:可解性(PDDL能被求解器理解)和正确性(最终计划正确)
实验关键数据¶
主实验(BlocksWorld-100,高度模板化)¶
| 模型 | Planner 正确率 | Formalizer 正确率 | 说明 |
|---|---|---|---|
| Gemma-2-9B/27B | ~0% | ~0% | 太弱,两种都失败 |
| LLaMA-3.1-8B/70B | ~0% | ~0-5% | 能力不足 |
| GPT-4o-mini | 中低 | 中高 | Formalizer更好 |
| GPT-4o | 中 | 高 | Formalizer显著优于Planner |
| o3-mini | 高 | 最高 | 推理模型最强 |
| DeepSeek-R1 | 高 | 高 | 开源最强 |
自然度影响¶
| 描述类型 | 最强模型正确率 | 说明 |
|---|---|---|
| 高度模板化 | 最高 | 信息完整显式 |
| 中度模板化 | 中高 | 部分信息需推断 |
| 自然语言 | 显著下降 | 大量信息需推断 |
关键发现¶
- Formalizer 经常优于 Planner——但不是总是:在某些模型-数据组合上 Planner 也可能更好
- 自然描述显著增加难度——从模板化到自然的性能下降反映了"信息推断"的挑战
- Formalizer 对词汇分布更鲁棒——在 MysteryBlocksWorld 中 Planner 大幅下降但 Formalizer 保持更好
- 弱模型(<20B)基本无法完成完整 PDDL 生成——卡在语法错误
- 强模型的错误主要是语义错误——语法正确但前置条件/效果定义不准确
- 推理模型(o3-mini、DeepSeek-R1)在两种范式下都表现最好
亮点与洞察¶
- "LLM 做形式化比做规划更好"在严格设定下得到验证——但不是无条件优越,取决于模型能力和描述质量。
- 自然度-性能的梯度下降量化了"信息需要推断"的代价——这对实际应用(用户不会用 PDDL 式描述)是重要警示。
- MysteryBlocksWorld 控制实验巧妙——证实了 Formalizer 更依赖结构理解而非词汇记忆。
- 语法错误 vs 语义错误的模型能力分层有实用价值——帮助判断模型在形式化通道上的瓶颈。
- 该工作对 LLM + 符号规划的 Neuro-Symbolic AI 方向有重要参考价值。
局限性 / 可改进方向¶
- 四个规划域都是经典 IPC 域——真实世界规划更复杂且开放
- "自然"描述仍由模型生成+人工验证——可能不完全代表真实用户的描述方式
- 仅评估单次生成——未探索迭代修正(如 LLM 生成 PDDL 后根据求解器反馈修正)
- 未评估成本效益——Formalizer 需要额外的求解器步骤
相关工作与启发¶
- vs Liu et al. (2023) / Guan et al. (2023): 之前只生成部分 PDDL;本文首次要求完整 PDDL
- vs Valmeekam et al. (2024): 证明 LLM 直接规划能力差;本文证明 LLM 形式化能力好得多
- vs DPT-Agent: DPT-Agent 用 FSM 做快速决策不涉及形式化规划;本文研究的是将自然语言转为形式化规划——不同层次的"规划"
- 对开发 LLM 辅助的规划系统有直接指导——应走 Formalizer 路线而非 Planner 路线
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次在完整 PDDL + 多自然度下系统评估,实验设计严谨
- 实验充分度: ⭐⭐⭐⭐⭐ 4域×3自然度×11模型×2范式+控制实验+详细错误分析
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义精确,方法论清晰,发现呈现有层次
- 价值: ⭐⭐⭐⭐⭐ 对 Neuro-Symbolic AI 和 LLM 规划能力有根本性认识贡献