ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning¶
会议: ICLR 2026
arXiv: 2503.24378
代码: https://ibm.github.io/ACPBench
领域: LLM推理
关键词: planning, benchmark, action reasoning, PDDL, generative evaluation
一句话总结¶
构建 ACPBench Hard,一个基于 PDDL 规划的 8 类开放式生成推理 benchmark(1040 题),要求 LLM 生成可适用动作集、状态转移、可达性判断、里程碑识别、计划验证等,配备精确的符号验证器,测试发现即使最强的推理模型(o1)在多数任务上也低于 65%,暴露了 LLM 在规划推理方面的根本不足。
研究背景与动机¶
- 领域现状:评估 LLM 规划能力的 benchmark 主要关注端到端计划生成/验证,无法定位失败原因。ACPBench v1 引入了 7 个原子推理任务但采用布尔/多选格式。
- 现有痛点:布尔/多选任务无法反映规划器的实际需求——规划器需要从大动作空间中生成答案,而非从 4 个选项中选一个。即使模型能在多选中选对,也不能保证能完成生成任务。
- 核心矛盾:开放式生成答案的评估比多选困难得多——有些任务的答案不唯一,有些验证本身就是 PSPACE-hard 的。需要为每个任务设计专门的符号验证算法。
- 本文要解决什么? 创建能精确评估 LLM 原子级规划推理能力的生成式 benchmark,让 LLM 产生规划器实际需要产生的答案。
- 切入角度:将 ACPBench 的 7 个任务升级为开放式生成版本,新增"下一步动作"任务,为每个任务开发基于 PDDL 的符号验证器。
- 核心idea一句话:用 PDDL 形式化系统 + 符号验证器精确度量 LLM 在 8 类规划推理原子任务上的生成能力。
方法详解¶
整体框架¶
ACPBench Hard 是 benchmark 论文。核心贡献:(1) 8 类生成式规划推理任务定义;(2) 基于 13 个 PDDL 域的 1040 道题;(3) 每个任务的符号验证算法(部分复杂度为 PSPACE-complete);(4) 15 个模型(小/中/大/推理)的系统评测。
关键设计¶
- 8 类原子规划推理任务:
- Applicability: 生成给定状态下所有可执行的动作
- Progression: 预测执行动作后的状态变化(正/负效果)
- Reachability: 识别从当前状态永远无法为真的命题
- Action Reachability: 识别永远无法变得可执行的动作
- Validation: 找出计划中第一个不可执行的动作
- Justification: 简化计划——移除冗余动作
- Landmarks: 识别任何合法计划都必须经过的必要子目标
-
Next Action (新增): 选择能使离目标更近的动作(对应最优规划)
-
符号验证器:
- 每个任务配备严格的符号验证算法,不依赖 LLM-as-judge
- 简单任务(App/Prog/Val)用集合比较 O(|F|)
- 困难任务(Reach/AReach/Land/NextA)需要调用 PDDL 规划器验证,复杂度 PSPACE-complete
-
这确保了评估的完全可靠性
-
模板式自然语言转换:
- 将 PDDL 问题用模板转为自然语言描述
- 2-shot 提示,示例来自评估集外的域
损失函数 / 训练策略¶
N/A(benchmark 论文)
实验关键数据¶
主实验(15 个模型 × 8 个任务)¶
| 任务 | 最高准确率 | 最强模型 | 说明 |
|---|---|---|---|
| App (可适用性) | ~5% | - | 所有模型几乎完全失败! |
| Prog (状态转移) | 89% | o1-preview | 最容易的任务 |
| Reach (可达性) | ~45% | - | 多数模型 <40% |
| AReach (动作可达性) | ~30% | - | 极难 |
| Val (计划验证) | 78% | o1-mini | 中等 |
| Just (计划简化) | ~55% | - | 中等 |
| Land (里程碑) | ~25% | - | 极难 |
| NextA (下一步) | 80% | o1-preview | 较好 |
关键发现¶
- Applicability 准确率接近 0%:最基础的任务——判断哪些动作可执行——所有模型都完全失败(包括 o1)!这意味着 LLM 连最基本的规划推理都做不到
- 没有任何模型在所有任务上优于其他模型——模型间呈现不同的强弱分布
- 推理模型(o1)计算成本远高于普通模型,但仅在 Prog 和 NextA 上有明显优势,多数任务提升有限
- 所有模型在 >50% 的任务上准确率低于 65%
- 大模型(405B)不一定比中等模型好——任务特定性很强
亮点与洞察¶
- 暴露了 LLM 规划推理的根本缺陷:App 任务接近 0% 说明 LLM 甚至无法可靠判断"哪些动作可以执行"——这是规划的最基本能力
- 符号验证器的方法论价值:为开放式生成的规划推理评估提供了可靠的自动验证方案,避免了 LLM-as-judge 的不可靠性
- 复杂度分析提供了理论深度:指出某些任务本身就是 PSPACE-hard 的,为理解 LLM 的能力边界提供了理论依据
局限性 / 可改进方向¶
- 基于模板的自然语言可能不够自然,限制了与真实世界规划场景的对应
- 13 个 PDDL 域可能不够覆盖所有规划推理模式
- 2-shot 设置可能对某些模型不够——但 in-context 学习不应是核心能力
- 仅评估了单步推理,未评估多步迭代改进的能力
相关工作与启发¶
- vs ACPBench v1: v1 是多选题,ACPBench Hard 是生成题——难度跨越式提升
- vs PlanBench/AutoPlanBench: 这些侧重端到端计划生成/验证,ACPBench Hard 分解为原子能力
- vs ActionReasoningBench: 混合了多个能力到单个问题中,不易定位弱点;ACPBench Hard 每个任务对应一个原子能力
评分¶
- 新颖性: ⭐⭐⭐⭐ 生成式规划推理 benchmark + 符号验证器
- 实验充分度: ⭐⭐⭐⭐⭐ 15 个模型、8 个任务、复杂度分析
- 写作质量: ⭐⭐⭐⭐ 任务定义清晰,验证算法详细
- 价值: ⭐⭐⭐⭐⭐ LLM 规划推理能力的权威测试平台