EscapeBench: Towards Advancing Creative Intelligence of Language Model Agents¶
会议: ACL 2025 (Long Paper)
arXiv: 2412.13549
代码: 有(论文提及全部代码和数据已release)
领域: Agent
关键词: 创造性智能, 密室逃脱, LLM Agent, 工具使用, 长链推理
一句话总结¶
提出EscapeBench密室逃脱游戏基准(36个场景、3种难度)评估LM agent的创造性智能,并设计EscapeAgent通过Foresight(工具使用假设生成)和Reflection(未解任务追踪)模块将提示依赖降低约50%,但仍远落后于人类。
背景与动机¶
现有agent评测主要关注显式目标的分析型和实践型智能(如网页操作、代码生成),但忽略了创造性智能——在陌生场景中非常规地重新利用工具、发现隐含目标的能力。认知科学的"三元智力理论"(Sternberg 1984)将智力分为分析性、实践性和创造性三类,现有benchmark几乎未覆盖创造性维度。密室逃脱游戏天然要求"跳出框架思考"和"非常规工具使用",是评测创造性智能的理想场景。
核心问题¶
如何构建一个评估LM agent创造性智能的环境?现有模型在需要创造性推理时的表现如何?如何通过框架设计提升agent的创造性问题解决能力?
方法详解¶
整体框架¶
EscapeBench是一个文本交互的密室逃脱游戏环境。游戏由场景(Scene)、工具(Tool)和物品(Item)组成图结构。Agent可执行5种动作:Move(移动到相邻场景)、Click(交互物品)、Apply(对物品使用工具)、Input(输入字符串)、Craft(组合两个工具制造新工具)。Agent在50步无进展时获得提示(hint),最终通过比较hints使用数和总步数来评估创造性。
关键设计¶
-
三种难度级别:Easy(详细描述+丰富环境反馈)、Normal(适中描述+基本反馈)、Hard(极简描述+无额外反馈),同一游戏逻辑通过描述粒度变化产生不同难度。36个游戏设置(12个基础场景×3难度)。
-
Reflection模块:维护一个结构化任务列表,通过New/Update/Delete三种操作动态管理。每次非move动作后根据环境反馈更新:失败则记录已尝试动作避免重复,成功则删除已完成任务。这帮助agent从随机探索转向有目的性行动。
-
Foresight模块:在两种情况下触发——发现新任务时(假设可用工具)和获得新工具时(评估其用途),生成工具使用假设。若有合理假设则进入"Try Action"状态定向尝试,否则进入"Free Explore"自由探索。这实现了"先假设后验证"的创造性推理模式。
损失函数 / 训练策略¶
无训练过程,纯推理评测。所有模型T=0,n=1。工作记忆长度为10步。50步无进展触发hint。
实验关键数据¶
| 模型 | Hints Used↓ | Total Steps↓ | Early Exit Progress↑ |
|---|---|---|---|
| Claude-3.5-Sonnet (Base) | 8.97 | 690.31 | 28.95% |
| GPT-4o (Base) | 10.30 | 723.61 | 24.75% |
| GPT-4o (Escape) | 5.03 | 452.75 | 47.03% |
| Llama-3.1-70B (Base) | 14.53 | 982.42 | 19.00% |
| Llama-3.1-70B (Escape) | 7.17 | 624.67 | 28.31% |
| Qwen2.5-7B (Base) | 32.20 | 1950.42 | 6.52% |
| Human Average | 4.33 | 257.83 | 59.65% |
| Oracle chain (optimal) | 0 | ~107.83 | 100% |
消融实验要点¶
- Foresight vs Reflection:两者互补,缺一不可。GPT-4o上:仅Reflection比仅Foresight总步数更少(570 vs 593),但Foresight的Early Exit Progress更高(48.89% vs 37.00%)。完整EscapeAgent最优(452步、47%进展)。
- 最难动作类型:Input和Craft的hint使用率最高(相对于总数),Input因参数空间大无法猜测,Craft需要创造性组合。
- 模型规模效应:7B以下模型几乎无法完成任务(>95%关键步骤需hint),7B是有意义评测的最低门槛。
- 领域特化负面影响:Qwen2.5-Math-7B几乎完全失败(45.4 hints),说明过度特化数学对齐损害通用创造性推理。
亮点¶
- 首个从认知科学角度系统评估LM创造性智能的benchmark,切入角度新颖
- 游戏设计巧妙——通过描述粒度控制难度而非改变逻辑,评测更纯粹
- Foresight的"假设-验证"机制有启发性,可迁移到其他需要创造性推理的agent系统
- 错误分析深入:大模型擅长收集工具但不敢尝试创造性动作,小模型则产生大量无效动作
- 超长推理链(1000+步)的维持能力是新的agent能力维度
局限性 / 可改进方向¶
- 仅使用文本交互,真实密室逃脱包含大量视觉和听觉线索,多模态版本是重要扩展方向
- 36个场景规模有限,人工标注成本阻碍扩展。GPT-4o自动标注质量不足
- 评测仅在推理阶段,未探索通过训练(如RL)提升创造性的方法
- hint机制保证游戏完成但也降低了评测的区分度——不同模型最终都能完成
与相关工作的对比¶
- vs AgentBench (Liu et al. 2024):AgentBench聚焦分析型智能的显式目标任务(网页、数据库操作),EscapeBench关注创造性智能的隐含目标任务。
- vs Minecraft/Voyager (Wang et al. 2024):Minecraft的沙盒环境侧重开放世界生存和建造,工具使用相对固定;EscapeBench的工具使用高度非常规和创造性。
- vs TextWorld (Côté et al. 2019):TextWorld侧重文本游戏的通用推理,EscapeBench专门设计了创造性工具使用和制作挑战。
启发与关联¶
- Foresight的"假设-验证"范式可以迁移到科研agent(假设实验方案→执行→反思)
- Reflection的任务列表管理可以与现有code agent(SWE-Bench等)的bug追踪结合
- 创造性智能的评测维度对于设计更general的AGI benchmark有重要参考价值
- 论文提到step-level RL可能提升创造性推理,这与当前process reward model的研究方向一致
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个系统评测LM创造性智能的benchmark,认知科学理论驱动
- 实验充分度: ⭐⭐⭐⭐ 12个模型+消融+错误分析+人类对比全面,但36个场景偏少
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,从认知理论到benchmark设计到agent框架层层递进
- 价值: ⭐⭐⭐⭐⭐ 开辟了创造性智能评测的新方向,Foresight+Reflection框架有广泛适用性