Iterative Formalization and Planning in Partially Observable Environments¶
会议: ACL 2026
arXiv: 2505.13126
代码: GitHub
领域: LLM NLP / AI Planning
关键词: 部分可观测环境, PDDL形式化, 迭代规划, LLM-as-Formalizer, 错误修复
一句话总结¶
提出 PDDLego+ 框架,让 LLM 在部分可观测环境中迭代地生成和修正 PDDL(规划领域定义语言)表示,通过双层错误修复循环(solver error + simulation error)实现无需微调、无需示例的有效规划。
研究背景与动机¶
领域现状:利用大语言模型进行规划是 AI 规划领域的热门方向,现有方法主要分为两类:LLM-as-planner(直接生成动作计划)和 LLM-as-formalizer(将环境形式化为 PDDL 再用传统求解器规划)。后者因可解释性好、可控性强而受到青睐,但绝大多数工作仅关注完全可观测环境。
现有痛点:真实世界中的规划场景(如机器人探索未知房间、网页代理操作)通常是部分可观测的——agent 只能看到局部观测,无法一次性生成完整计划。少数处理部分可观测环境的工作存在三个缺陷:(1) 假设部分规划表示已知(如预定义的 predicates 或 domain file);(2) 仅使用一次性形式化而非迭代改进;(3) 依赖现有轨迹作为 in-context 示例。
核心矛盾:PDDL 等规划语言基于封闭世界假设——要求初始状态和目标的完整定义。这与部分可观测环境中信息逐步揭示的本质直接矛盾。
本文目标:设计一个无需微调、无需示例、无需预设 domain file 的框架,让 LLM 在部分可观测环境中通过迭代探索和错误修复,逐步构建完整的 PDDL 表示并完成规划任务。
核心 idea:将部分可观测问题分解为一系列完全可观测的子问题,每次基于当前观测生成局部 PDDL,用求解器规划并执行,根据新观测和错误反馈迭代更新。
方法详解¶
整体框架¶
PDDLego+ 的核心流程是一个"生成→求解→执行→更新"的迭代循环:(1) LLM 根据当前观测生成 Domain File(\(\mathbb{DF}\),定义类型、谓词、动作)和 Problem File(\(\mathbb{PF}\),定义对象、初始状态、目标);(2) 形式化求解器(Fast Downward)搜索动作计划;(3) 在模拟环境中执行计划;(4) 根据新观测更新 PDDL 或根据错误修复 PDDL。与 PDDLego 不同,PDDLego+ 同时推断 DF 和 PF,不假设 domain file 已知。
关键设计¶
-
双层错误修复循环(Two-Phase Error Refinement)
- 功能:处理 PDDL 生成过程中的两类错误
- 核心思路:内层循环处理 solver error(PDDL 语法/语义错误导致求解器失败),外层循环处理 simulation error(计划在模拟器中执行失败)。形式化为:solver error 修复 \(\mathrm{df}_i^{j,k+1}, \mathrm{pf}_i^{j,k+1} = \text{LLM}(\mathrm{err}_{\text{sol}}, \mathrm{df}_i^{j,k}, \mathrm{pf}_i^{j,k})\);simulation error 修复 \(\mathrm{df}_i^{j+1}, \mathrm{pf}_i^{j+1} = \text{LLM}(\mathrm{err}_{\text{sim}}, \mathrm{df}_i^j, \mathrm{pf}_i^j)\)
- 设计动机:两类错误性质不同——solver error 是即时的语法/逻辑问题,simulation error 是更深层的语义问题(如缺少前置条件),需要分层处理
-
目标分解与子目标预测(Goal Decomposition)
- 功能:将不可达的全局目标分解为当前可达的子目标
- 核心思路:提供两种提示模板——simple prompt(粗略的目标分解指引)和 detailed prompt(提供 PDDL 目标模板如
(:goal (at ?location)),让 LLM 填充占位符)。每个时间步 LLM 预测一个局部可达的子目标 - 设计动机:部分可观测环境中全局目标通常不可直接达成,必须通过探索逐步接近
-
完整 Domain+Problem 推断
- 功能:同时从自然语言观测推断 DF 和 PF,而非假设 DF 已知
- 核心思路:LLM 接收文本观测(如"你在厨房,东边有一扇关着的门"),生成完整的 PDDL 类型定义、谓词、动作语义(DF)以及对象实例、初始状态、目标(PF)
- 设计动机:DF 推断是更困难的任务(类比于合成类和函数 vs 合成函数调用),但在真实场景中 DF 不可能预先给定
域知识复用¶
成功试验结束后产生的 DF 可作为"学到的域知识"复用于未来任务。实验使用 RAG 方式从历史成功试验中检索 DF,固定 DF 后仅让 LLM 预测 PF,某些模型上显著提升成功率。
实验关键数据¶
主实验¶
在 CoinCollector(导航任务)和 ALFWorld(物体操作任务)两个文本模拟环境上评估:
| 方法 | CoinCollector (o3-mini) | ALFWorld (o3-mini) |
|---|---|---|
| PlanGen (LLM-as-planner) | 52% | 5% |
| PDDLego (无修复) | 49% | 3% |
| PDDLego+ (本文) | 86% | 38% |
| 模型 | CoinCollector PlanGen/PDDLego+ | ALFWorld PlanGen/PDDLego+ |
|---|---|---|
| DeepSeek-R1 | ~55% / ~75% | ~8% / ~25% |
| GPT-4.1 | ~60% / ~55% | ~3% / ~20% |
| o3-mini | 52% / 86% | 5% / 38% |
| o4-mini | ~65% / ~80% | ~10% / ~30% |
消融实验¶
- 复杂度鲁棒性:CoinCollector 房间数从 3 增到 11 时,PDDLego+ 成功率保持稳定,PlanGen 和 PDDLego 逐渐下降
- 目标提示消融:detailed prompt 优于 simple prompt,但 simple prompt 下 PDDLego+ 仍显著优于基线
- 域知识复用:使用 RAG 检索的 DF,DeepSeek-R1 和 GPT-4.1 成功率提升,o3-mini 略有下降(已有足够强的 DF 生成能力)
关键发现¶
- PDDLego+ 在较复杂的 ALFWorld 上对所有模型都优于 PlanGen,说明形式化方法在复杂规划任务中的优势
- 大多数错误是 solver error(PDDL 语法问题),而非 simulation error,o3-mini 的错误修复率最高
- 错误分析显示主要瓶颈在 PF 的语义错误:幻觉事实、不可达目标、遗忘已观测信息
亮点与洞察¶
- 形式化方法在部分可观测环境中可行:首次系统性证明 LLM-as-formalizer 在部分可观测环境中的有效性,打破了"PDDL 只能用于完全可观测环境"的认知
- 可解释性优势:与 LLM-as-planner 不同,PDDLego+ 的每个失败都可以归因到具体的 PDDL 错误,支持因果错误分析
- 域知识可迁移:成功试验产生的 DF 可复用,展示了形式化方法在知识积累方面的独特优势
- 推理模型的优势:o3-mini 等推理模型在 PDDL 生成中显著优于常规模型,与 Huang & Zhang (2025) 的发现一致
局限与展望¶
- 依赖环境提供信息丰富的错误消息,在错误反馈模糊的环境中可能失效
- 需要针对特定环境设计提示词,泛化到未知领域的能力有限
- 需要高能力 LLM(如 o3-mini/DeepSeek-R1)且多次调用,计算成本高
- ALFWorld 上最高成功率仅 38%,仍有巨大提升空间
- PF 中的幻觉事实和遗忘问题是主要瓶颈,需要更好的世界状态维护机制
相关工作与启发¶
- vs PDDLego (Zhang et al. 2024):PDDLego 假设 DF 已知且无错误修复,PDDLego+ 推断完整 DF+PF 并引入双层修复循环
- vs PlanGen (LLM-as-planner):在简单任务上 PlanGen 有时更优(直接生成动作无需形式化),但在复杂任务(ALFWorld)上 PDDLego+ 全面领先
- vs ReAct:PDDLego+ 可视为 ReAct 的形式化升级版——用 PDDL 替代自然语言推理,获得形式保证
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次在部分可观测环境中实现完整的迭代 PDDL 形式化,双层修复循环设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 两个环境、四个模型、多维度分析和错误解剖,但 ALFWorld 成功率偏低
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法形式化完整,错误分析细致
- 价值: ⭐⭐⭐⭐ 为 LLM 驱动的形式化规划在真实场景中的应用提供了可行路径
相关论文¶
- [ICLR 2026] From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning
- [ACL 2025] LLM as a Broken Telephone: Iterative Generation Distorts Information
- [ACL 2025] PlanGenLLMs: A Modern Survey of LLM Planning Capabilities
- [ACL 2025] On the Limit of Language Models as Planning Formalizers
- [ACL 2025] AgentGym: Evolving Large Language Model-based Agents across Diverse Environments