EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer¶
会议: AAAI 2026
arXiv: 2509.12718
代码: https://anonymous.4open.science/r/EvoEmpirBench-143C/
领域: LLM Agent / 空间推理 / Benchmark
关键词: 动态空间推理, 部分可观测, 在线学习, 经验验证, 迷宫导航
一句话总结¶
提出 EvoEmpirBench(EEB),包含两个动态交互式 benchmark(局部可观测迷宫导航 + 消消乐),以及 Agent-ExpVer 三智能体在线学习框架(GeoLink 交互 + InsightForce 经验抽象 + TruthWeaver 知识管理),通过"经验→验证→真理归纳"的认知循环实现无参数更新的持续策略进化,使 GPT-4.1 成功率提升 5.6%、Qwen-32B 提升 29%。
研究背景与动机¶
- 领域现状:现有 LLM 推理 benchmark(BIG-Bench、PlanBench 等)主要基于静态数据集,容易受数据污染影响且性能快速饱和。游戏类 benchmark(SmartPlay、GameArena)虽然更有趣,但要么环境静态、要么交互浅层、要么只测特定能力。
- 现有痛点:真实世界推理需要在部分可观测、动态变化的环境中做长期规划——每个动作都会改变环境状态,Agent 需要持续更新认知和策略。现有 benchmark 很少同时测试这三个维度:部分可观测 + 动态环境 + 长时间跨度推理。
- 核心矛盾:传统"收集数据-离线训练"范式不适合动态环境,而人类学习是通过持续的抽象和规则归纳(经验→验证→真理)来适应新情境的。LLM Agent 缺乏类似的在线学习机制。
- 本文要解决什么:(a) 构建真正动态、部分可观测的推理 benchmark;(b) 设计受人类认知启发的在线学习框架,使 Agent 无需参数更新即可持续改进。
- 切入角度:用两个精心设计的游戏(迷宫 + 消消乐)作为测试环境——每步操作都改变环境,且 Agent 只能看到局部信息。从人类"经验学习"出发设计三智能体协作框架。
- 核心 idea 一句话:用"主观经验→验证→真理归纳"的认知循环替代离线训练,实现 Agent 在动态环境中的无参数持续学习。
方法详解¶
整体框架¶
两部分工作:(1) EvoEmpirBench 动态 benchmark 构建;(2) Agent-ExpVer 三智能体在线学习框架。
关键设计¶
- EvoEmpirBench 两个动态游戏:
- 迷宫导航:9×9 网格,Agent 局部可观测(只看到周围区域)。Easy 级只有金币;Medium 有移动怪物;Hard 有 4 种道具(镐、铁剑、磁铁、钥匙)+ 怪物 + 障碍。每个动作(破坏障碍、拿道具等)改变环境结构
- 消消乐 (Match-2):8×8 棋盘,消除 ≥2 个相邻同色方块,消除后方块下落并随机补充新方块。有限步数内达到每种颜色的消除目标。道具(行清除、列清除、炸弹、锤子)需要花费点数
-
设计动机:两个游戏考验不同维度——迷宫测试空间导航+风险管理+记忆利用,消消乐测试策略规划+资源优化+长期目标管理。共 120 个任务实例(每游戏 3 个难度×30 实例)
-
GeoLink Agent(环境交互):
- 做什么:与游戏环境直接交互,在每个时间步选择动作并收集轨迹
- 核心思路:\(a_t \sim \pi_t(\mathbf{s}_t)\),收集交互历史 \(\mathcal{H}_{0:T} = \{(\mathbf{s}_0, a_0, r_0), \ldots\}\)
-
策略 \(\pi_t\) 通过整合已有"真理"知识不断进化:\(\pi_t = \pi_0 \cup \bigcup_{e \in \mathcal{M}_{\text{truth}}} e\)
-
InsightForce Agent(经验抽象+验证):
- 做什么:将交互轨迹抽象为"主观经验",并通过重玩验证其有效性
- 核心思路:用 LLM 对轨迹 \(\mathcal{H}_{0:T}\) 和最终指标 \(\mathbf{m}\) 做摘要 \(\mathbf{e} = f_{\text{sum}}(\mathcal{H}_{0:T}, \mathbf{m})\)。然后 Agent 带着经验 \(\mathbf{e}\) 重新玩同一关卡,如果通关且得分提升,则经验升级为"真理":\(\mathcal{M}_{\text{truth}} \leftarrow \mathcal{M}_{\text{truth}} \cup \mathbf{e}\) if \(P \wedge (S' > S)\)
-
设计动机:受人类情景记忆启发——不是所有经验都有价值,只有经过验证确实有效的经验才值得保留
-
TruthWeaver Agent(知识管理):
- 做什么:管理真理知识库,防止冗余积累
- 核心思路:三个操作——(1) 合并语义相似的真理(不同表述但含义相同);(2) 移除完全重复的条目;(3) 插入新真理。保持知识库精简且高质量
- 设计动机:随着学习轮次增加,知识会爆炸式增长,需要类似人类"记忆巩固"的机制来精炼和去重
策略回滚机制¶
如果策略更新后平均得分下降(\(\Delta < 0\)),自动回退到上一版本策略并重新进行经验抽象。这确保学习过程单调不退化。
实验关键数据¶
主实验 — 迷宫导航¶
| 模型 | 成功率 (%) | 平均得分 | 平均步数 |
|---|---|---|---|
| Human | 90.00 | 2914.67 | 20.6 |
| GPT-4.1 | 73.33 | 2562.33 | 34.0 |
| GPT-4.1 + ExpVer | 78.89 | 2805.67 | 32.8 |
| DeepSeek-V3 | 61.11 | 1649.78 | 50.6 |
| Qwen2.5-32B | 42.22 | 1122.22 | 38.4 |
| Qwen2.5-32B + ExpVer | 54.44 | 1532.33 | 35.8 |
| Llama-3.1-8B | 23.33 | -1213.67 | 54.4 |
主实验 — 消消乐¶
| 模型 | 成功率 (%) | 平均得分 |
|---|---|---|
| Human | 86.67 | 350.22 |
| GPT-4.1 | 40.00 | 245.04 |
| GPT-4.1 + ExpVer | 53.33 | 234.60 |
| Grok-3 | 42.22 | 246.87 |
| Claude-3.7-Sonnet | 41.11 | 230.33 |
| Qwen2.5-32B | 33.33 | 203.07 |
| Qwen2.5-32B + ExpVer | 41.57 | 197.42 |
消融实验¶
| 配置 | Maze 成功率 | Maze 得分 | Match-2 成功率 | Match-2 得分 |
|---|---|---|---|---|
| GPT-4.1 基线 | 73.33% | 2562 | 40.00% | 245 |
| GPT-4.1 w/o TruthWeaver | 77.78% | 2765 | 48.89% | 220 |
| GPT-4.1 + ExpVer (完整) | 78.89% | 2806 | 53.33% | 235 |
关键发现¶
- 所有 LLM 远落后于人类:人类 90% vs 最强 LLM 78.89%(迷宫),86.67% vs 53.33%(消消乐),说明动态空间推理仍是 LLM 的重大短板
- Agent-ExpVer 一致提升所有模型:平均 +5.6% 成功率(迷宫)、+13.3%(消消乐),且无需参数更新
- Qwen-32B 提升最显著:成功率从 42.22% 到 54.44%(+29% 相对提升),说明 ExpVer 对中等能力模型帮助更大
- 学到的"真理"有具体语义:早期 Agent 学到"大胆探索坏"→后期转变为"生存优先",展示了类人的学习轨迹
- 部分可观测是核心难度来源:给予全局视角后 GPT-4.1 成功率从 73% 跳到 93%,证明信息不完全是主要瓶颈
- 消消乐更难:基线 LLM 平均只有 33.7% 成功率,因为需要精确的空间推理+多步前瞻规划
亮点与洞察¶
- "经验→验证→真理"的认知循环是最核心的创新——不是简单的 self-reflection(Reflexion 只看失败原因),而是完整的"总结→重玩验证→升级为可复用知识→去重精炼"闭环
- TruthWeaver 的知识管理解决了一个实际问题——随着学习轮次增加,prompt 中的知识条目会越来越多,如果不做合并去重,上下文窗口会被低质量重复知识占满
- 策略回滚机制很务实——非单调学习过程(前几轮可能因为错误归纳导致性能下降)需要保护措施
- 两个游戏设计互补性好:迷宫测试探索-利用平衡和风险管理,消消乐测试精确协调和长期规划
局限性 / 可改进方向¶
- 性能受限于基础模型能力——小模型(Llama-8B)几乎无法受益于 ExpVer
- 只有两种游戏类型,缺少时间推理、多 Agent 协作等更复杂场景
- Agent-ExpVer 的"真理"是文本形式的 prompt 扩展,受上下文窗口限制,无法无限积累
- 游戏规则相对简单(9×9 网格、8×8 棋盘),可能不完全反映真实世界的复杂空间推理
- 缺少与其他在线学习方法(如 Voyager、CLIN)的直接对比
相关工作与启发¶
- vs SmartPlay:SmartPlay 环境静态,EEB 动态+部分可观测,更贴近真实
- vs Reflexion:Reflexion 只做失败反思,ExpVer 做完整的"总结→验证→真理归纳→知识管理"闭环,且支持跨关卡迁移
- vs Agent-Pro:Agent-Pro 限于扑克/21点等浅层交互,EEB 的迷宫和消消乐需要更长时间跨度的推理链
- 对 Agent 研究的启示:无参数更新的在线学习(纯 prompt 扩展)可能是 LLM Agent 持续改进的实用路径
评分¶
- 新颖性: ⭐⭐⭐⭐ 动态 benchmark 设计新颖,Agent-ExpVer 的认知循环有理论深度,但核心技术(prompt 扩展+经验验证)相对简单
- 实验充分度: ⭐⭐⭐⭐ 15+ 模型 + 消融 + 人类基线 + 学习过程可视化,但只有两种游戏
- 写作质量: ⭐⭐⭐⭐ Jean Piaget 的引用很有品味,方法描述清晰,附录的推理过程示例非常详尽
- 价值: ⭐⭐⭐⭐ 动态空间推理是 LLM 的明确短板,benchmark 和无参数学习方法都有研究价值