EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer¶

会议: AAAI 2026
arXiv: 2509.12718
代码: https://anonymous.4open.science/r/EvoEmpirBench-143C/
领域: LLM Agent / 空间推理 / Benchmark
关键词: 动态空间推理, 部分可观测, 在线学习, 经验验证, 迷宫导航

一句话总结¶

提出 EvoEmpirBench（EEB），包含两个动态交互式 benchmark（局部可观测迷宫导航 + 消消乐），以及 Agent-ExpVer 三智能体在线学习框架（GeoLink 交互 + InsightForce 经验抽象 + TruthWeaver 知识管理），通过"经验→验证→真理归纳"的认知循环实现无参数更新的持续策略进化，使 GPT-4.1 成功率提升 5.6%、Qwen-32B 提升 29%。

研究背景与动机¶

领域现状：现有 LLM 推理 benchmark（BIG-Bench、PlanBench 等）主要基于静态数据集，容易受数据污染影响且性能快速饱和。游戏类 benchmark（SmartPlay、GameArena）虽然更有趣，但要么环境静态、要么交互浅层、要么只测特定能力。
现有痛点：真实世界推理需要在部分可观测、动态变化的环境中做长期规划——每个动作都会改变环境状态，Agent 需要持续更新认知和策略。现有 benchmark 很少同时测试这三个维度：部分可观测 + 动态环境 + 长时间跨度推理。
核心矛盾：传统"收集数据-离线训练"范式不适合动态环境，而人类学习是通过持续的抽象和规则归纳（经验→验证→真理）来适应新情境的。LLM Agent 缺乏类似的在线学习机制。
本文要解决什么：(a) 构建真正动态、部分可观测的推理 benchmark；(b) 设计受人类认知启发的在线学习框架，使 Agent 无需参数更新即可持续改进。
切入角度：用两个精心设计的游戏（迷宫 + 消消乐）作为测试环境——每步操作都改变环境，且 Agent 只能看到局部信息。从人类"经验学习"出发设计三智能体协作框架。
核心 idea 一句话：用"主观经验→验证→真理归纳"的认知循环替代离线训练，实现 Agent 在动态环境中的无参数持续学习。

方法详解¶

整体框架¶

两部分工作：(1) EvoEmpirBench 动态 benchmark 构建；(2) Agent-ExpVer 三智能体在线学习框架。

关键设计¶

EvoEmpirBench 两个动态游戏:
迷宫导航：9×9 网格，Agent 局部可观测（只看到周围区域）。Easy 级只有金币；Medium 有移动怪物；Hard 有 4 种道具（镐、铁剑、磁铁、钥匙）+ 怪物 + 障碍。每个动作（破坏障碍、拿道具等）改变环境结构
消消乐 (Match-2)：8×8 棋盘，消除 ≥2 个相邻同色方块，消除后方块下落并随机补充新方块。有限步数内达到每种颜色的消除目标。道具（行清除、列清除、炸弹、锤子）需要花费点数
设计动机：两个游戏考验不同维度——迷宫测试空间导航+风险管理+记忆利用，消消乐测试策略规划+资源优化+长期目标管理。共 120 个任务实例（每游戏 3 个难度×30 实例）
GeoLink Agent（环境交互）:
做什么：与游戏环境直接交互，在每个时间步选择动作并收集轨迹
核心思路：\(a_t \sim \pi_t(\mathbf{s}_t)\)，收集交互历史 \(\mathcal{H}_{0:T} = \{(\mathbf{s}_0, a_0, r_0), \ldots\}\)
策略 \(\pi_t\) 通过整合已有"真理"知识不断进化：\(\pi_t = \pi_0 \cup \bigcup_{e \in \mathcal{M}_{\text{truth}}} e\)
InsightForce Agent（经验抽象+验证）:
做什么：将交互轨迹抽象为"主观经验"，并通过重玩验证其有效性
核心思路：用 LLM 对轨迹 \(\mathcal{H}_{0:T}\) 和最终指标 \(\mathbf{m}\) 做摘要 \(\mathbf{e} = f_{\text{sum}}(\mathcal{H}_{0:T}, \mathbf{m})\)。然后 Agent 带着经验 \(\mathbf{e}\) 重新玩同一关卡，如果通关且得分提升，则经验升级为"真理"：\(\mathcal{M}_{\text{truth}} \leftarrow \mathcal{M}_{\text{truth}} \cup \mathbf{e}\) if \(P \wedge (S' > S)\)
设计动机：受人类情景记忆启发——不是所有经验都有价值，只有经过验证确实有效的经验才值得保留
TruthWeaver Agent（知识管理）:
做什么：管理真理知识库，防止冗余积累
核心思路：三个操作——(1) 合并语义相似的真理（不同表述但含义相同）；(2) 移除完全重复的条目；(3) 插入新真理。保持知识库精简且高质量
设计动机：随着学习轮次增加，知识会爆炸式增长，需要类似人类"记忆巩固"的机制来精炼和去重

策略回滚机制¶

如果策略更新后平均得分下降（\(\Delta < 0\)），自动回退到上一版本策略并重新进行经验抽象。这确保学习过程单调不退化。

实验关键数据¶

主实验 — 迷宫导航¶

模型	成功率 (%)	平均得分	平均步数
Human	90.00	2914.67	20.6
GPT-4.1	73.33	2562.33	34.0
GPT-4.1 + ExpVer	78.89	2805.67	32.8
DeepSeek-V3	61.11	1649.78	50.6
Qwen2.5-32B	42.22	1122.22	38.4
Qwen2.5-32B + ExpVer	54.44	1532.33	35.8
Llama-3.1-8B	23.33	-1213.67	54.4

主实验 — 消消乐¶

模型	成功率 (%)	平均得分
Human	86.67	350.22
GPT-4.1	40.00	245.04
GPT-4.1 + ExpVer	53.33	234.60
Grok-3	42.22	246.87
Claude-3.7-Sonnet	41.11	230.33
Qwen2.5-32B	33.33	203.07
Qwen2.5-32B + ExpVer	41.57	197.42

消融实验¶

配置	Maze 成功率	Maze 得分	Match-2 成功率	Match-2 得分
GPT-4.1 基线	73.33%	2562	40.00%	245
GPT-4.1 w/o TruthWeaver	77.78%	2765	48.89%	220
GPT-4.1 + ExpVer (完整)	78.89%	2806	53.33%	235

关键发现¶

所有 LLM 远落后于人类：人类 90% vs 最强 LLM 78.89%（迷宫），86.67% vs 53.33%（消消乐），说明动态空间推理仍是 LLM 的重大短板
Agent-ExpVer 一致提升所有模型：平均 +5.6% 成功率（迷宫）、+13.3%（消消乐），且无需参数更新
Qwen-32B 提升最显著：成功率从 42.22% 到 54.44%（+29% 相对提升），说明 ExpVer 对中等能力模型帮助更大
学到的"真理"有具体语义：早期 Agent 学到"大胆探索坏"→后期转变为"生存优先"，展示了类人的学习轨迹
部分可观测是核心难度来源：给予全局视角后 GPT-4.1 成功率从 73% 跳到 93%，证明信息不完全是主要瓶颈
消消乐更难：基线 LLM 平均只有 33.7% 成功率，因为需要精确的空间推理+多步前瞻规划

亮点与洞察¶

"经验→验证→真理"的认知循环是最核心的创新——不是简单的 self-reflection（Reflexion 只看失败原因），而是完整的"总结→重玩验证→升级为可复用知识→去重精炼"闭环
TruthWeaver 的知识管理解决了一个实际问题——随着学习轮次增加，prompt 中的知识条目会越来越多，如果不做合并去重，上下文窗口会被低质量重复知识占满
策略回滚机制很务实——非单调学习过程（前几轮可能因为错误归纳导致性能下降）需要保护措施
两个游戏设计互补性好：迷宫测试探索-利用平衡和风险管理，消消乐测试精确协调和长期规划

局限性 / 可改进方向¶

性能受限于基础模型能力——小模型（Llama-8B）几乎无法受益于 ExpVer
只有两种游戏类型，缺少时间推理、多 Agent 协作等更复杂场景
Agent-ExpVer 的"真理"是文本形式的 prompt 扩展，受上下文窗口限制，无法无限积累
游戏规则相对简单（9×9 网格、8×8 棋盘），可能不完全反映真实世界的复杂空间推理
缺少与其他在线学习方法（如 Voyager、CLIN）的直接对比

评分¶

新颖性: ⭐⭐⭐⭐ 动态 benchmark 设计新颖，Agent-ExpVer 的认知循环有理论深度，但核心技术（prompt 扩展+经验验证）相对简单
实验充分度: ⭐⭐⭐⭐ 15+ 模型 + 消融 + 人类基线 + 学习过程可视化，但只有两种游戏
写作质量: ⭐⭐⭐⭐ Jean Piaget 的引用很有品味，方法描述清晰，附录的推理过程示例非常详尽
价值: ⭐⭐⭐⭐ 动态空间推理是 LLM 的明确短板，benchmark 和无参数学习方法都有研究价值