On the Limit of Language Models as Planning Formalizers¶

会议: ACL 2025
arXiv: 2412.09879
代码: https://github.com/CassieHuang22/llm-as-pddl-formalizer
领域: LLM Agent
关键词: PDDL, 规划形式化, LLM推理, 神经符号, 自然语言到形式语言

一句话总结¶

系统评估"LLM-as-Formalizer"方法论的极限——首次要求 LLM 生成完整 PDDL 表示（而非部分），从不同自然度的文本描述中形式化规划领域，发现最强模型（GPT-4o/o3-mini/DeepSeek-R1）可有效形式化超越直接规划，但描述越自然性能越低，弱模型卡在语法错误而强模型面临语义错误。

研究背景与动机¶

领域现状：LLM 可以做非正式规划（如"派对建议"）但无法生成可执行可验证的形式化计划。近期研究将 LLM 作为"形式化器"——将自然语言描述转化为 PDDL（规划域描述语言），再用确定性求解器找到计划。
现有痛点：(a) 之前的工作只让 LLM 生成部分 PDDL（如只生成问题文件而给定域文件）——不现实，真实用户不会提供 PDDL 组件；(b) 使用的文本描述高度模板化——几乎是 PDDL 的逐字翻译，不代表用户真实描述方式；(c) 在这些简化设定下的"成功"可能被高估。
核心矛盾：LLM 的信息提取能力强但形式推理能力弱——形式化（提取信息转为结构）应比直接规划（推理搜索）更适合 LLM，但到底能做到多好？在多"自然"的描述下仍然有效？
本文要解决什么？ 在更严格和现实的设定下（完整 PDDL + 不同自然度描述）系统评估 LLM-as-Formalizer 的能力和极限。
切入角度：构建三种自然度的描述——高度模板化/中度模板化/自然语言，在四个规划领域上评估多个 LLM。
核心idea一句话：LLM 做形式化优于直接规划，但自然描述仍是瓶颈——弱模型出语法错，强模型出语义错。

方法详解¶

整体框架¶

(1) 构建三种自然度的规划描述数据集（高度模板化→中度模板化→自然）×四个规划领域（BlocksWorld/Logistics/Barman/MysteryBlocksWorld）；(2) 对比两种 LLM 使用范式——LLM-as-Planner（直接生成计划）和 LLM-as-Formalizer（生成 PDDL 后用求解器找计划）；(3) 评估多个 LLM 在可解性和正确性上的表现。

关键设计¶

三级自然度的描述构建:
高度模板化: 几乎逐字翻译 PDDL——列出所有前置条件和效果，使用谓词术语
中度模板化: 更自然但仍显式讨论前置条件和效果
自然语言: 模拟真实用户——用人类-模型协作方式生成，描述一般规则而非逐条列举，省略可推断的信息
设计动机：测试 LLM 在不同信息显式程度下的形式化能力
完整 PDDL 生成:
做什么：要求 LLM 同时生成域文件（\(\mathbb{DF}\)）和问题文件（\(\mathbb{PF}\)）
与之前工作的区别：之前只生成部分（如只生成 \(\mathbb{PF}\)），假设 \(\mathbb{DF}\) 已给定
设计动机：完整生成更接近真实使用场景
MysteryBlocksWorld 控制实验:
做什么：用无意义词替换所有实体/谓词/动作名来测试 LLM 是否依赖词汇记忆
设计动机：如果模型在混淆版上仍然能形式化成功，说明它理解了结构而非记忆了 BlocksWorld 的 PDDL

损失函数 / 训练策略¶

纯评估研究——无训练
评估 11 个 LLM：Gemma-2 (9B/27B)、LLaMA-3.1 (8B/70B/405B)、DeepSeek-R1 系列、GPT-4o、o3-mini
指标：可解性（PDDL能被求解器理解）和正确性（最终计划正确）

实验关键数据¶

主实验（BlocksWorld-100，高度模板化）¶

模型	Planner 正确率	Formalizer 正确率	说明
Gemma-2-9B/27B	~0%	~0%	太弱，两种都失败
LLaMA-3.1-8B/70B	~0%	~0-5%	能力不足
GPT-4o-mini	中低	中高	Formalizer更好
GPT-4o	中	高	Formalizer显著优于Planner
o3-mini	高	最高	推理模型最强
DeepSeek-R1	高	高	开源最强

自然度影响¶

描述类型	最强模型正确率	说明
高度模板化	最高	信息完整显式
中度模板化	中高	部分信息需推断
自然语言	显著下降	大量信息需推断

关键发现¶

Formalizer 经常优于 Planner——但不是总是：在某些模型-数据组合上 Planner 也可能更好
自然描述显著增加难度——从模板化到自然的性能下降反映了"信息推断"的挑战
Formalizer 对词汇分布更鲁棒——在 MysteryBlocksWorld 中 Planner 大幅下降但 Formalizer 保持更好
弱模型（<20B）基本无法完成完整 PDDL 生成——卡在语法错误
强模型的错误主要是语义错误——语法正确但前置条件/效果定义不准确
推理模型（o3-mini、DeepSeek-R1）在两种范式下都表现最好

亮点与洞察¶

"LLM 做形式化比做规划更好"在严格设定下得到验证——但不是无条件优越，取决于模型能力和描述质量。
自然度-性能的梯度下降量化了"信息需要推断"的代价——这对实际应用（用户不会用 PDDL 式描述）是重要警示。
MysteryBlocksWorld 控制实验巧妙——证实了 Formalizer 更依赖结构理解而非词汇记忆。
语法错误 vs 语义错误的模型能力分层有实用价值——帮助判断模型在形式化通道上的瓶颈。
该工作对 LLM + 符号规划的 Neuro-Symbolic AI 方向有重要参考价值。

局限性 / 可改进方向¶

四个规划域都是经典 IPC 域——真实世界规划更复杂且开放
"自然"描述仍由模型生成+人工验证——可能不完全代表真实用户的描述方式
仅评估单次生成——未探索迭代修正（如 LLM 生成 PDDL 后根据求解器反馈修正）
未评估成本效益——Formalizer 需要额外的求解器步骤

评分¶

新颖性: ⭐⭐⭐⭐ 首次在完整 PDDL + 多自然度下系统评估，实验设计严谨
实验充分度: ⭐⭐⭐⭐⭐ 4域×3自然度×11模型×2范式+控制实验+详细错误分析
写作质量: ⭐⭐⭐⭐⭐ 问题定义精确，方法论清晰，发现呈现有层次
价值: ⭐⭐⭐⭐⭐ 对 Neuro-Symbolic AI 和 LLM 规划能力有根本性认识贡献