跳转至

On the Limit of Language Models as Planning Formalizers

会议: ACL 2025
arXiv: 2412.09879
代码: https://github.com/CassieHuang22/llm-as-pddl-formalizer
领域: LLM Agent
关键词: PDDL, 规划形式化, LLM推理, 神经符号, 自然语言到形式语言

一句话总结

系统评估"LLM-as-Formalizer"方法论的极限——首次要求 LLM 生成完整 PDDL 表示(而非部分),从不同自然度的文本描述中形式化规划领域,发现最强模型(GPT-4o/o3-mini/DeepSeek-R1)可有效形式化超越直接规划,但描述越自然性能越低,弱模型卡在语法错误而强模型面临语义错误。

研究背景与动机

  1. 领域现状:LLM 可以做非正式规划(如"派对建议")但无法生成可执行可验证的形式化计划。近期研究将 LLM 作为"形式化器"——将自然语言描述转化为 PDDL(规划域描述语言),再用确定性求解器找到计划。
  2. 现有痛点:(a) 之前的工作只让 LLM 生成部分 PDDL(如只生成问题文件而给定域文件)——不现实,真实用户不会提供 PDDL 组件;(b) 使用的文本描述高度模板化——几乎是 PDDL 的逐字翻译,不代表用户真实描述方式;(c) 在这些简化设定下的"成功"可能被高估。
  3. 核心矛盾:LLM 的信息提取能力强但形式推理能力弱——形式化(提取信息转为结构)应比直接规划(推理搜索)更适合 LLM,但到底能做到多好?在多"自然"的描述下仍然有效?
  4. 本文要解决什么? 在更严格和现实的设定下(完整 PDDL + 不同自然度描述)系统评估 LLM-as-Formalizer 的能力和极限。
  5. 切入角度:构建三种自然度的描述——高度模板化/中度模板化/自然语言,在四个规划领域上评估多个 LLM。
  6. 核心idea一句话:LLM 做形式化优于直接规划,但自然描述仍是瓶颈——弱模型出语法错,强模型出语义错。

方法详解

整体框架

(1) 构建三种自然度的规划描述数据集(高度模板化→中度模板化→自然)×四个规划领域(BlocksWorld/Logistics/Barman/MysteryBlocksWorld);(2) 对比两种 LLM 使用范式——LLM-as-Planner(直接生成计划)和 LLM-as-Formalizer(生成 PDDL 后用求解器找计划);(3) 评估多个 LLM 在可解性和正确性上的表现。

关键设计

  1. 三级自然度的描述构建:
  2. 高度模板化: 几乎逐字翻译 PDDL——列出所有前置条件和效果,使用谓词术语
  3. 中度模板化: 更自然但仍显式讨论前置条件和效果
  4. 自然语言: 模拟真实用户——用人类-模型协作方式生成,描述一般规则而非逐条列举,省略可推断的信息
  5. 设计动机:测试 LLM 在不同信息显式程度下的形式化能力

  6. 完整 PDDL 生成:

  7. 做什么:要求 LLM 同时生成域文件(\(\mathbb{DF}\))和问题文件(\(\mathbb{PF}\)
  8. 与之前工作的区别:之前只生成部分(如只生成 \(\mathbb{PF}\)),假设 \(\mathbb{DF}\) 已给定
  9. 设计动机:完整生成更接近真实使用场景

  10. MysteryBlocksWorld 控制实验:

  11. 做什么:用无意义词替换所有实体/谓词/动作名来测试 LLM 是否依赖词汇记忆
  12. 设计动机:如果模型在混淆版上仍然能形式化成功,说明它理解了结构而非记忆了 BlocksWorld 的 PDDL

损失函数 / 训练策略

  • 纯评估研究——无训练
  • 评估 11 个 LLM:Gemma-2 (9B/27B)、LLaMA-3.1 (8B/70B/405B)、DeepSeek-R1 系列、GPT-4o、o3-mini
  • 指标:可解性(PDDL能被求解器理解)和正确性(最终计划正确)

实验关键数据

主实验(BlocksWorld-100,高度模板化)

模型 Planner 正确率 Formalizer 正确率 说明
Gemma-2-9B/27B ~0% ~0% 太弱,两种都失败
LLaMA-3.1-8B/70B ~0% ~0-5% 能力不足
GPT-4o-mini 中低 中高 Formalizer更好
GPT-4o Formalizer显著优于Planner
o3-mini 最高 推理模型最强
DeepSeek-R1 开源最强

自然度影响

描述类型 最强模型正确率 说明
高度模板化 最高 信息完整显式
中度模板化 中高 部分信息需推断
自然语言 显著下降 大量信息需推断

关键发现

  • Formalizer 经常优于 Planner——但不是总是:在某些模型-数据组合上 Planner 也可能更好
  • 自然描述显著增加难度——从模板化到自然的性能下降反映了"信息推断"的挑战
  • Formalizer 对词汇分布更鲁棒——在 MysteryBlocksWorld 中 Planner 大幅下降但 Formalizer 保持更好
  • 弱模型(<20B)基本无法完成完整 PDDL 生成——卡在语法错误
  • 强模型的错误主要是语义错误——语法正确但前置条件/效果定义不准确
  • 推理模型(o3-mini、DeepSeek-R1)在两种范式下都表现最好

亮点与洞察

  • "LLM 做形式化比做规划更好"在严格设定下得到验证——但不是无条件优越,取决于模型能力和描述质量。
  • 自然度-性能的梯度下降量化了"信息需要推断"的代价——这对实际应用(用户不会用 PDDL 式描述)是重要警示。
  • MysteryBlocksWorld 控制实验巧妙——证实了 Formalizer 更依赖结构理解而非词汇记忆。
  • 语法错误 vs 语义错误的模型能力分层有实用价值——帮助判断模型在形式化通道上的瓶颈。
  • 该工作对 LLM + 符号规划的 Neuro-Symbolic AI 方向有重要参考价值。

局限性 / 可改进方向

  • 四个规划域都是经典 IPC 域——真实世界规划更复杂且开放
  • "自然"描述仍由模型生成+人工验证——可能不完全代表真实用户的描述方式
  • 仅评估单次生成——未探索迭代修正(如 LLM 生成 PDDL 后根据求解器反馈修正)
  • 未评估成本效益——Formalizer 需要额外的求解器步骤

相关工作与启发

  • vs Liu et al. (2023) / Guan et al. (2023): 之前只生成部分 PDDL;本文首次要求完整 PDDL
  • vs Valmeekam et al. (2024): 证明 LLM 直接规划能力差;本文证明 LLM 形式化能力好得多
  • vs DPT-Agent: DPT-Agent 用 FSM 做快速决策不涉及形式化规划;本文研究的是将自然语言转为形式化规划——不同层次的"规划"
  • 对开发 LLM 辅助的规划系统有直接指导——应走 Formalizer 路线而非 Planner 路线

评分

  • 新颖性: ⭐⭐⭐⭐ 首次在完整 PDDL + 多自然度下系统评估,实验设计严谨
  • 实验充分度: ⭐⭐⭐⭐⭐ 4域×3自然度×11模型×2范式+控制实验+详细错误分析
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义精确,方法论清晰,发现呈现有层次
  • 价值: ⭐⭐⭐⭐⭐ 对 Neuro-Symbolic AI 和 LLM 规划能力有根本性认识贡献