EscapeBench: Towards Advancing Creative Intelligence of Language Model Agents¶

会议: ACL 2025 (Long Paper)
arXiv: 2412.13549
代码: 有（论文提及全部代码和数据已release）
领域: Agent
关键词: 创造性智能, 密室逃脱, LLM Agent, 工具使用, 长链推理

一句话总结¶

提出EscapeBench密室逃脱游戏基准（36个场景、3种难度）评估LM agent的创造性智能，并设计EscapeAgent通过Foresight（工具使用假设生成）和Reflection（未解任务追踪）模块将提示依赖降低约50%，但仍远落后于人类。

背景与动机¶

现有agent评测主要关注显式目标的分析型和实践型智能（如网页操作、代码生成），但忽略了创造性智能——在陌生场景中非常规地重新利用工具、发现隐含目标的能力。认知科学的"三元智力理论"（Sternberg 1984）将智力分为分析性、实践性和创造性三类，现有benchmark几乎未覆盖创造性维度。密室逃脱游戏天然要求"跳出框架思考"和"非常规工具使用"，是评测创造性智能的理想场景。

核心问题¶

如何构建一个评估LM agent创造性智能的环境？现有模型在需要创造性推理时的表现如何？如何通过框架设计提升agent的创造性问题解决能力？

方法详解¶

整体框架¶

EscapeBench是一个文本交互的密室逃脱游戏环境。游戏由场景（Scene）、工具（Tool）和物品（Item）组成图结构。Agent可执行5种动作：Move（移动到相邻场景）、Click（交互物品）、Apply（对物品使用工具）、Input（输入字符串）、Craft（组合两个工具制造新工具）。Agent在50步无进展时获得提示（hint），最终通过比较hints使用数和总步数来评估创造性。

关键设计¶

三种难度级别：Easy（详细描述+丰富环境反馈）、Normal（适中描述+基本反馈）、Hard（极简描述+无额外反馈），同一游戏逻辑通过描述粒度变化产生不同难度。36个游戏设置（12个基础场景×3难度）。
Reflection模块：维护一个结构化任务列表，通过New/Update/Delete三种操作动态管理。每次非move动作后根据环境反馈更新：失败则记录已尝试动作避免重复，成功则删除已完成任务。这帮助agent从随机探索转向有目的性行动。
Foresight模块：在两种情况下触发——发现新任务时（假设可用工具）和获得新工具时（评估其用途），生成工具使用假设。若有合理假设则进入"Try Action"状态定向尝试，否则进入"Free Explore"自由探索。这实现了"先假设后验证"的创造性推理模式。

损失函数 / 训练策略¶

无训练过程，纯推理评测。所有模型T=0，n=1。工作记忆长度为10步。50步无进展触发hint。

实验关键数据¶

模型	Hints Used↓	Total Steps↓	Early Exit Progress↑
Claude-3.5-Sonnet (Base)	8.97	690.31	28.95%
GPT-4o (Base)	10.30	723.61	24.75%
GPT-4o (Escape)	5.03	452.75	47.03%
Llama-3.1-70B (Base)	14.53	982.42	19.00%
Llama-3.1-70B (Escape)	7.17	624.67	28.31%
Qwen2.5-7B (Base)	32.20	1950.42	6.52%
Human Average	4.33	257.83	59.65%
Oracle chain (optimal)	0	~107.83	100%

消融实验要点¶

Foresight vs Reflection：两者互补，缺一不可。GPT-4o上：仅Reflection比仅Foresight总步数更少（570 vs 593），但Foresight的Early Exit Progress更高（48.89% vs 37.00%）。完整EscapeAgent最优（452步、47%进展）。
最难动作类型：Input和Craft的hint使用率最高（相对于总数），Input因参数空间大无法猜测，Craft需要创造性组合。
模型规模效应：7B以下模型几乎无法完成任务（>95%关键步骤需hint），7B是有意义评测的最低门槛。
领域特化负面影响：Qwen2.5-Math-7B几乎完全失败（45.4 hints），说明过度特化数学对齐损害通用创造性推理。

亮点¶

首个从认知科学角度系统评估LM创造性智能的benchmark，切入角度新颖
游戏设计巧妙——通过描述粒度控制难度而非改变逻辑，评测更纯粹
Foresight的"假设-验证"机制有启发性，可迁移到其他需要创造性推理的agent系统
错误分析深入：大模型擅长收集工具但不敢尝试创造性动作，小模型则产生大量无效动作
超长推理链（1000+步）的维持能力是新的agent能力维度

局限性 / 可改进方向¶

仅使用文本交互，真实密室逃脱包含大量视觉和听觉线索，多模态版本是重要扩展方向
36个场景规模有限，人工标注成本阻碍扩展。GPT-4o自动标注质量不足
评测仅在推理阶段，未探索通过训练（如RL）提升创造性的方法
hint机制保证游戏完成但也降低了评测的区分度——不同模型最终都能完成

与相关工作的对比¶

vs AgentBench (Liu et al. 2024)：AgentBench聚焦分析型智能的显式目标任务（网页、数据库操作），EscapeBench关注创造性智能的隐含目标任务。
vs Minecraft/Voyager (Wang et al. 2024)：Minecraft的沙盒环境侧重开放世界生存和建造，工具使用相对固定；EscapeBench的工具使用高度非常规和创造性。
vs TextWorld (Côté et al. 2019)：TextWorld侧重文本游戏的通用推理，EscapeBench专门设计了创造性工具使用和制作挑战。

启发与关联¶

Foresight的"假设-验证"范式可以迁移到科研agent（假设实验方案→执行→反思）
Reflection的任务列表管理可以与现有code agent（SWE-Bench等）的bug追踪结合
创造性智能的评测维度对于设计更general的AGI benchmark有重要参考价值
论文提到step-level RL可能提升创造性推理，这与当前process reward model的研究方向一致

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统评测LM创造性智能的benchmark，认知科学理论驱动
实验充分度: ⭐⭐⭐⭐ 12个模型+消融+错误分析+人类对比全面，但36个场景偏少
写作质量: ⭐⭐⭐⭐ 逻辑清晰，从认知理论到benchmark设计到agent框架层层递进
价值: ⭐⭐⭐⭐⭐ 开辟了创造性智能评测的新方向，Foresight+Reflection框架有广泛适用性