ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning¶

会议: ICLR 2026
arXiv: 2503.24378
代码: https://ibm.github.io/ACPBench
领域: LLM推理
关键词: planning, benchmark, action reasoning, PDDL, generative evaluation

一句话总结¶

构建 ACPBench Hard，一个基于 PDDL 规划的 8 类开放式生成推理 benchmark（1040 题），要求 LLM 生成可适用动作集、状态转移、可达性判断、里程碑识别、计划验证等，配备精确的符号验证器，测试发现即使最强的推理模型（o1）在多数任务上也低于 65%，暴露了 LLM 在规划推理方面的根本不足。

研究背景与动机¶

领域现状：评估 LLM 规划能力的 benchmark 主要关注端到端计划生成/验证，无法定位失败原因。ACPBench v1 引入了 7 个原子推理任务但采用布尔/多选格式。
现有痛点：布尔/多选任务无法反映规划器的实际需求——规划器需要从大动作空间中生成答案，而非从 4 个选项中选一个。即使模型能在多选中选对，也不能保证能完成生成任务。
核心矛盾：开放式生成答案的评估比多选困难得多——有些任务的答案不唯一，有些验证本身就是 PSPACE-hard 的。需要为每个任务设计专门的符号验证算法。
本文要解决什么？ 创建能精确评估 LLM 原子级规划推理能力的生成式 benchmark，让 LLM 产生规划器实际需要产生的答案。
切入角度：将 ACPBench 的 7 个任务升级为开放式生成版本，新增"下一步动作"任务，为每个任务开发基于 PDDL 的符号验证器。
核心idea一句话：用 PDDL 形式化系统 + 符号验证器精确度量 LLM 在 8 类规划推理原子任务上的生成能力。

方法详解¶

整体框架¶

ACPBench Hard 是 benchmark 论文。核心贡献：(1) 8 类生成式规划推理任务定义；(2) 基于 13 个 PDDL 域的 1040 道题；(3) 每个任务的符号验证算法（部分复杂度为 PSPACE-complete）；(4) 15 个模型（小/中/大/推理）的系统评测。

关键设计¶

8 类原子规划推理任务:
Applicability: 生成给定状态下所有可执行的动作
Progression: 预测执行动作后的状态变化（正/负效果）
Reachability: 识别从当前状态永远无法为真的命题
Action Reachability: 识别永远无法变得可执行的动作
Validation: 找出计划中第一个不可执行的动作
Justification: 简化计划——移除冗余动作
Landmarks: 识别任何合法计划都必须经过的必要子目标
Next Action (新增): 选择能使离目标更近的动作（对应最优规划）
符号验证器:
每个任务配备严格的符号验证算法，不依赖 LLM-as-judge
简单任务（App/Prog/Val）用集合比较 O(|F|)
困难任务（Reach/AReach/Land/NextA）需要调用 PDDL 规划器验证，复杂度 PSPACE-complete
这确保了评估的完全可靠性
模板式自然语言转换:
将 PDDL 问题用模板转为自然语言描述
2-shot 提示，示例来自评估集外的域

损失函数 / 训练策略¶

N/A（benchmark 论文）

实验关键数据¶

主实验（15 个模型 × 8 个任务）¶

任务	最高准确率	最强模型	说明
App (可适用性)	~5%	-	所有模型几乎完全失败！
Prog (状态转移)	89%	o1-preview	最容易的任务
Reach (可达性)	~45%	-	多数模型 <40%
AReach (动作可达性)	~30%	-	极难
Val (计划验证)	78%	o1-mini	中等
Just (计划简化)	~55%	-	中等
Land (里程碑)	~25%	-	极难
NextA (下一步)	80%	o1-preview	较好

关键发现¶

Applicability 准确率接近 0%：最基础的任务——判断哪些动作可执行——所有模型都完全失败（包括 o1）！这意味着 LLM 连最基本的规划推理都做不到
没有任何模型在所有任务上优于其他模型——模型间呈现不同的强弱分布
推理模型（o1）计算成本远高于普通模型，但仅在 Prog 和 NextA 上有明显优势，多数任务提升有限
所有模型在 >50% 的任务上准确率低于 65%
大模型（405B）不一定比中等模型好——任务特定性很强

亮点与洞察¶

暴露了 LLM 规划推理的根本缺陷：App 任务接近 0% 说明 LLM 甚至无法可靠判断"哪些动作可以执行"——这是规划的最基本能力
符号验证器的方法论价值：为开放式生成的规划推理评估提供了可靠的自动验证方案，避免了 LLM-as-judge 的不可靠性
复杂度分析提供了理论深度：指出某些任务本身就是 PSPACE-hard 的，为理解 LLM 的能力边界提供了理论依据

局限性 / 可改进方向¶

基于模板的自然语言可能不够自然，限制了与真实世界规划场景的对应
13 个 PDDL 域可能不够覆盖所有规划推理模式
2-shot 设置可能对某些模型不够——但 in-context 学习不应是核心能力
仅评估了单步推理，未评估多步迭代改进的能力

评分¶

新颖性: ⭐⭐⭐⭐ 生成式规划推理 benchmark + 符号验证器
实验充分度: ⭐⭐⭐⭐⭐ 15 个模型、8 个任务、复杂度分析
写作质量: ⭐⭐⭐⭐ 任务定义清晰，验证算法详细
价值: ⭐⭐⭐⭐⭐ LLM 规划推理能力的权威测试平台