跳转至

ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning

会议: ICLR 2026
arXiv: 2503.24378
代码: https://ibm.github.io/ACPBench
领域: LLM推理
关键词: planning, benchmark, action reasoning, PDDL, generative evaluation

一句话总结

构建 ACPBench Hard,一个基于 PDDL 规划的 8 类开放式生成推理 benchmark(1040 题),要求 LLM 生成可适用动作集、状态转移、可达性判断、里程碑识别、计划验证等,配备精确的符号验证器,测试发现即使最强的推理模型(o1)在多数任务上也低于 65%,暴露了 LLM 在规划推理方面的根本不足。

研究背景与动机

  1. 领域现状:评估 LLM 规划能力的 benchmark 主要关注端到端计划生成/验证,无法定位失败原因。ACPBench v1 引入了 7 个原子推理任务但采用布尔/多选格式。
  2. 现有痛点:布尔/多选任务无法反映规划器的实际需求——规划器需要从大动作空间中生成答案,而非从 4 个选项中选一个。即使模型能在多选中选对,也不能保证能完成生成任务。
  3. 核心矛盾:开放式生成答案的评估比多选困难得多——有些任务的答案不唯一,有些验证本身就是 PSPACE-hard 的。需要为每个任务设计专门的符号验证算法。
  4. 本文要解决什么? 创建能精确评估 LLM 原子级规划推理能力的生成式 benchmark,让 LLM 产生规划器实际需要产生的答案。
  5. 切入角度:将 ACPBench 的 7 个任务升级为开放式生成版本,新增"下一步动作"任务,为每个任务开发基于 PDDL 的符号验证器。
  6. 核心idea一句话:用 PDDL 形式化系统 + 符号验证器精确度量 LLM 在 8 类规划推理原子任务上的生成能力。

方法详解

整体框架

ACPBench Hard 是 benchmark 论文。核心贡献:(1) 8 类生成式规划推理任务定义;(2) 基于 13 个 PDDL 域的 1040 道题;(3) 每个任务的符号验证算法(部分复杂度为 PSPACE-complete);(4) 15 个模型(小/中/大/推理)的系统评测。

关键设计

  1. 8 类原子规划推理任务:
  2. Applicability: 生成给定状态下所有可执行的动作
  3. Progression: 预测执行动作后的状态变化(正/负效果)
  4. Reachability: 识别从当前状态永远无法为真的命题
  5. Action Reachability: 识别永远无法变得可执行的动作
  6. Validation: 找出计划中第一个不可执行的动作
  7. Justification: 简化计划——移除冗余动作
  8. Landmarks: 识别任何合法计划都必须经过的必要子目标
  9. Next Action (新增): 选择能使离目标更近的动作(对应最优规划)

  10. 符号验证器:

  11. 每个任务配备严格的符号验证算法,不依赖 LLM-as-judge
  12. 简单任务(App/Prog/Val)用集合比较 O(|F|)
  13. 困难任务(Reach/AReach/Land/NextA)需要调用 PDDL 规划器验证,复杂度 PSPACE-complete
  14. 这确保了评估的完全可靠性

  15. 模板式自然语言转换:

  16. 将 PDDL 问题用模板转为自然语言描述
  17. 2-shot 提示,示例来自评估集外的域

损失函数 / 训练策略

N/A(benchmark 论文)

实验关键数据

主实验(15 个模型 × 8 个任务)

任务 最高准确率 最强模型 说明
App (可适用性) ~5% - 所有模型几乎完全失败!
Prog (状态转移) 89% o1-preview 最容易的任务
Reach (可达性) ~45% - 多数模型 <40%
AReach (动作可达性) ~30% - 极难
Val (计划验证) 78% o1-mini 中等
Just (计划简化) ~55% - 中等
Land (里程碑) ~25% - 极难
NextA (下一步) 80% o1-preview 较好

关键发现

  • Applicability 准确率接近 0%:最基础的任务——判断哪些动作可执行——所有模型都完全失败(包括 o1)!这意味着 LLM 连最基本的规划推理都做不到
  • 没有任何模型在所有任务上优于其他模型——模型间呈现不同的强弱分布
  • 推理模型(o1)计算成本远高于普通模型,但仅在 Prog 和 NextA 上有明显优势,多数任务提升有限
  • 所有模型在 >50% 的任务上准确率低于 65%
  • 大模型(405B)不一定比中等模型好——任务特定性很强

亮点与洞察

  • 暴露了 LLM 规划推理的根本缺陷:App 任务接近 0% 说明 LLM 甚至无法可靠判断"哪些动作可以执行"——这是规划的最基本能力
  • 符号验证器的方法论价值:为开放式生成的规划推理评估提供了可靠的自动验证方案,避免了 LLM-as-judge 的不可靠性
  • 复杂度分析提供了理论深度:指出某些任务本身就是 PSPACE-hard 的,为理解 LLM 的能力边界提供了理论依据

局限性 / 可改进方向

  • 基于模板的自然语言可能不够自然,限制了与真实世界规划场景的对应
  • 13 个 PDDL 域可能不够覆盖所有规划推理模式
  • 2-shot 设置可能对某些模型不够——但 in-context 学习不应是核心能力
  • 仅评估了单步推理,未评估多步迭代改进的能力

相关工作与启发

  • vs ACPBench v1: v1 是多选题,ACPBench Hard 是生成题——难度跨越式提升
  • vs PlanBench/AutoPlanBench: 这些侧重端到端计划生成/验证,ACPBench Hard 分解为原子能力
  • vs ActionReasoningBench: 混合了多个能力到单个问题中,不易定位弱点;ACPBench Hard 每个任务对应一个原子能力

评分

  • 新颖性: ⭐⭐⭐⭐ 生成式规划推理 benchmark + 符号验证器
  • 实验充分度: ⭐⭐⭐⭐⭐ 15 个模型、8 个任务、复杂度分析
  • 写作质量: ⭐⭐⭐⭐ 任务定义清晰,验证算法详细
  • 价值: ⭐⭐⭐⭐⭐ LLM 规划推理能力的权威测试平台