跳转至

EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer

会议: AAAI 2026
arXiv: 2509.12718
代码: https://anonymous.4open.science/r/EvoEmpirBench-143C/
领域: LLM Agent / 空间推理 / Benchmark
关键词: 动态空间推理, 部分可观测, 在线学习, 经验验证, 迷宫导航

一句话总结

提出 EvoEmpirBench(EEB),包含两个动态交互式 benchmark(局部可观测迷宫导航 + 消消乐),以及 Agent-ExpVer 三智能体在线学习框架(GeoLink 交互 + InsightForce 经验抽象 + TruthWeaver 知识管理),通过"经验→验证→真理归纳"的认知循环实现无参数更新的持续策略进化,使 GPT-4.1 成功率提升 5.6%、Qwen-32B 提升 29%。

研究背景与动机

  1. 领域现状:现有 LLM 推理 benchmark(BIG-Bench、PlanBench 等)主要基于静态数据集,容易受数据污染影响且性能快速饱和。游戏类 benchmark(SmartPlay、GameArena)虽然更有趣,但要么环境静态、要么交互浅层、要么只测特定能力。
  2. 现有痛点:真实世界推理需要在部分可观测、动态变化的环境中做长期规划——每个动作都会改变环境状态,Agent 需要持续更新认知和策略。现有 benchmark 很少同时测试这三个维度:部分可观测 + 动态环境 + 长时间跨度推理。
  3. 核心矛盾:传统"收集数据-离线训练"范式不适合动态环境,而人类学习是通过持续的抽象和规则归纳(经验→验证→真理)来适应新情境的。LLM Agent 缺乏类似的在线学习机制。
  4. 本文要解决什么:(a) 构建真正动态、部分可观测的推理 benchmark;(b) 设计受人类认知启发的在线学习框架,使 Agent 无需参数更新即可持续改进。
  5. 切入角度:用两个精心设计的游戏(迷宫 + 消消乐)作为测试环境——每步操作都改变环境,且 Agent 只能看到局部信息。从人类"经验学习"出发设计三智能体协作框架。
  6. 核心 idea 一句话:用"主观经验→验证→真理归纳"的认知循环替代离线训练,实现 Agent 在动态环境中的无参数持续学习。

方法详解

整体框架

两部分工作:(1) EvoEmpirBench 动态 benchmark 构建;(2) Agent-ExpVer 三智能体在线学习框架。

关键设计

  1. EvoEmpirBench 两个动态游戏:
  2. 迷宫导航:9×9 网格,Agent 局部可观测(只看到周围区域)。Easy 级只有金币;Medium 有移动怪物;Hard 有 4 种道具(镐、铁剑、磁铁、钥匙)+ 怪物 + 障碍。每个动作(破坏障碍、拿道具等)改变环境结构
  3. 消消乐 (Match-2):8×8 棋盘,消除 ≥2 个相邻同色方块,消除后方块下落并随机补充新方块。有限步数内达到每种颜色的消除目标。道具(行清除、列清除、炸弹、锤子)需要花费点数
  4. 设计动机:两个游戏考验不同维度——迷宫测试空间导航+风险管理+记忆利用,消消乐测试策略规划+资源优化+长期目标管理。共 120 个任务实例(每游戏 3 个难度×30 实例)

  5. GeoLink Agent(环境交互):

  6. 做什么:与游戏环境直接交互,在每个时间步选择动作并收集轨迹
  7. 核心思路:\(a_t \sim \pi_t(\mathbf{s}_t)\),收集交互历史 \(\mathcal{H}_{0:T} = \{(\mathbf{s}_0, a_0, r_0), \ldots\}\)
  8. 策略 \(\pi_t\) 通过整合已有"真理"知识不断进化:\(\pi_t = \pi_0 \cup \bigcup_{e \in \mathcal{M}_{\text{truth}}} e\)

  9. InsightForce Agent(经验抽象+验证):

  10. 做什么:将交互轨迹抽象为"主观经验",并通过重玩验证其有效性
  11. 核心思路:用 LLM 对轨迹 \(\mathcal{H}_{0:T}\) 和最终指标 \(\mathbf{m}\) 做摘要 \(\mathbf{e} = f_{\text{sum}}(\mathcal{H}_{0:T}, \mathbf{m})\)。然后 Agent 带着经验 \(\mathbf{e}\) 重新玩同一关卡,如果通关且得分提升,则经验升级为"真理":\(\mathcal{M}_{\text{truth}} \leftarrow \mathcal{M}_{\text{truth}} \cup \mathbf{e}\) if \(P \wedge (S' > S)\)
  12. 设计动机:受人类情景记忆启发——不是所有经验都有价值,只有经过验证确实有效的经验才值得保留

  13. TruthWeaver Agent(知识管理):

  14. 做什么:管理真理知识库,防止冗余积累
  15. 核心思路:三个操作——(1) 合并语义相似的真理(不同表述但含义相同);(2) 移除完全重复的条目;(3) 插入新真理。保持知识库精简且高质量
  16. 设计动机:随着学习轮次增加,知识会爆炸式增长,需要类似人类"记忆巩固"的机制来精炼和去重

策略回滚机制

如果策略更新后平均得分下降(\(\Delta < 0\)),自动回退到上一版本策略并重新进行经验抽象。这确保学习过程单调不退化。

实验关键数据

主实验 — 迷宫导航

模型 成功率 (%) 平均得分 平均步数
Human 90.00 2914.67 20.6
GPT-4.1 73.33 2562.33 34.0
GPT-4.1 + ExpVer 78.89 2805.67 32.8
DeepSeek-V3 61.11 1649.78 50.6
Qwen2.5-32B 42.22 1122.22 38.4
Qwen2.5-32B + ExpVer 54.44 1532.33 35.8
Llama-3.1-8B 23.33 -1213.67 54.4

主实验 — 消消乐

模型 成功率 (%) 平均得分
Human 86.67 350.22
GPT-4.1 40.00 245.04
GPT-4.1 + ExpVer 53.33 234.60
Grok-3 42.22 246.87
Claude-3.7-Sonnet 41.11 230.33
Qwen2.5-32B 33.33 203.07
Qwen2.5-32B + ExpVer 41.57 197.42

消融实验

配置 Maze 成功率 Maze 得分 Match-2 成功率 Match-2 得分
GPT-4.1 基线 73.33% 2562 40.00% 245
GPT-4.1 w/o TruthWeaver 77.78% 2765 48.89% 220
GPT-4.1 + ExpVer (完整) 78.89% 2806 53.33% 235

关键发现

  • 所有 LLM 远落后于人类:人类 90% vs 最强 LLM 78.89%(迷宫),86.67% vs 53.33%(消消乐),说明动态空间推理仍是 LLM 的重大短板
  • Agent-ExpVer 一致提升所有模型:平均 +5.6% 成功率(迷宫)、+13.3%(消消乐),且无需参数更新
  • Qwen-32B 提升最显著:成功率从 42.22% 到 54.44%(+29% 相对提升),说明 ExpVer 对中等能力模型帮助更大
  • 学到的"真理"有具体语义:早期 Agent 学到"大胆探索坏"→后期转变为"生存优先",展示了类人的学习轨迹
  • 部分可观测是核心难度来源:给予全局视角后 GPT-4.1 成功率从 73% 跳到 93%,证明信息不完全是主要瓶颈
  • 消消乐更难:基线 LLM 平均只有 33.7% 成功率,因为需要精确的空间推理+多步前瞻规划

亮点与洞察

  • "经验→验证→真理"的认知循环是最核心的创新——不是简单的 self-reflection(Reflexion 只看失败原因),而是完整的"总结→重玩验证→升级为可复用知识→去重精炼"闭环
  • TruthWeaver 的知识管理解决了一个实际问题——随着学习轮次增加,prompt 中的知识条目会越来越多,如果不做合并去重,上下文窗口会被低质量重复知识占满
  • 策略回滚机制很务实——非单调学习过程(前几轮可能因为错误归纳导致性能下降)需要保护措施
  • 两个游戏设计互补性好:迷宫测试探索-利用平衡和风险管理,消消乐测试精确协调和长期规划

局限性 / 可改进方向

  • 性能受限于基础模型能力——小模型(Llama-8B)几乎无法受益于 ExpVer
  • 只有两种游戏类型,缺少时间推理、多 Agent 协作等更复杂场景
  • Agent-ExpVer 的"真理"是文本形式的 prompt 扩展,受上下文窗口限制,无法无限积累
  • 游戏规则相对简单(9×9 网格、8×8 棋盘),可能不完全反映真实世界的复杂空间推理
  • 缺少与其他在线学习方法(如 Voyager、CLIN)的直接对比

相关工作与启发

  • vs SmartPlay:SmartPlay 环境静态,EEB 动态+部分可观测,更贴近真实
  • vs Reflexion:Reflexion 只做失败反思,ExpVer 做完整的"总结→验证→真理归纳→知识管理"闭环,且支持跨关卡迁移
  • vs Agent-Pro:Agent-Pro 限于扑克/21点等浅层交互,EEB 的迷宫和消消乐需要更长时间跨度的推理链
  • 对 Agent 研究的启示:无参数更新的在线学习(纯 prompt 扩展)可能是 LLM Agent 持续改进的实用路径

评分

  • 新颖性: ⭐⭐⭐⭐ 动态 benchmark 设计新颖,Agent-ExpVer 的认知循环有理论深度,但核心技术(prompt 扩展+经验验证)相对简单
  • 实验充分度: ⭐⭐⭐⭐ 15+ 模型 + 消融 + 人类基线 + 学习过程可视化,但只有两种游戏
  • 写作质量: ⭐⭐⭐⭐ Jean Piaget 的引用很有品味,方法描述清晰,附录的推理过程示例非常详尽
  • 价值: ⭐⭐⭐⭐ 动态空间推理是 LLM 的明确短板,benchmark 和无参数学习方法都有研究价值