跳转至

Building Spatial World Models from Sparse Transitional Episodic Memories

会议: ICLR2026
arXiv: 2505.13696
代码: 待确认
领域: 自监督学习 / 世界模型
关键词: world model, episodic memory, spatial reasoning, cognitive map, navigation

一句话总结

提出 Episodic Spatial World Model (ESWM),从稀疏、不连续的情景记忆(one-step transitions)中构建空间世界模型,其潜空间自发涌现出与环境拓扑对齐的认知地图,并支持零样本探索和导航。

研究背景与动机

  1. 领域现状:现有世界模型(World Models)通常需要长序列连续轨迹进行训练,将环境知识编码到模型权重中。代表性方法如 TEM、GTM-SM 依赖连续观测序列并假设跨环境共享固定结构。
  2. 现有痛点:(1) 真实场景中智能体的观测往往是碎片化的——不同时间访问环境的不同部分,无法获得连续长轨迹;(2) 环境可能发生结构性变化(如新增障碍物),基于权重编码的模型需要重新训练才能适应;(3) 序列模型处理大环境时计算开销巨大。
  3. 核心矛盾:现有模型将环境结构知识编码在权重中,导致 (a) 无法从碎片化经验中快速建图,(b) 无法动态适应环境变化。
  4. 本文要解决什么:能否仅从稀疏、不相连的情景记忆中快速构建出一致的空间世界模型?
  5. 切入角度:受神经科学启发——内侧颞叶(MTL)同时负责空间表征和情景记忆,通过整合重叠的情景记忆构建关系网络。作者设想模型无需连续轨迹,只需一组独立的 one-step transition 即可推理出完整空间结构。
  6. 核心idea一句话:将世界建模从序列学习转化为集合推理——用 Transformer 从不相连的情景记忆集合中推断空间关系。

方法详解

整体框架

ESWM 的输入是一个记忆库 \(M\)(由多个不相连的 one-step transition \((s_s, a, s_e)\) 组成的无序集合)和一个部分掩码的查询 transition \(q\)(随机掩掉起始状态/动作/终止状态之一)。模型的目标是预测被掩码的元素。这实质上是一个集合到值的推理问题:从碎片化记忆中推断未观测的空间关系。

训练采用元学习策略:每个样本随机采样一个环境、一个记忆库、一个查询和一种掩码方式,使模型无法记忆特定环境,必须学会通用的空间推理能力。

关键设计

  1. 记忆库构建:
  2. 做什么:为每个环境生成一组覆盖全部位置但不形成连续轨迹的转移集合
  3. 核心思路:记忆库满足三个性质——不相连(transitions 不构成连续路径)、覆盖性(transitions 构成的图连通且覆盖所有位置)、极小性(去掉任何一个 transition 会导致图断连)
  4. 设计动机:极小性约束确保模型被迫进行多步推理(从多个记忆片段中推理出未直接观测到的空间关系),而非简单查表

  5. 掩码预测任务:

  6. 做什么:随机掩掉查询 transition 的一个分量(\(s_s\), \(a\), 或 \(s_e\)),模型预测被掩掉的值
  7. 核心思路:\(q^* = f(M, q)\),其中 \(f\) 是 Transformer 编码器。每个 transition 的三个分量分别投影到共享高维空间并平均为单个 token,记忆库和查询的 tokens 拼接输入 Transformer,三个线性头分别预测 \(s_s\), \(a\), \(s_e\)
  8. 设计动机:三种掩码类型分别测试模型的"前向预测"(已知状态和动作,预测下一状态)、"动作推理"(已知起终点,推理动作)和"反向推理"(已知动作和终点,推理起点)能力

  9. "不确定性"分类(I don't know):

  10. 做什么:在部分记忆缺失时,模型需要判断查询是否可解
  11. 核心思路:训练时随机删除部分记忆,使环境出现未观测区域。对于涉及未观测区域的查询,模型需输出额外的"I don't know"类别
  12. 设计动机:这是后续探索算法的基础——智能体可以利用高"I don't know"概率来寻找信息增益最大的动作

  13. 架构对比:

  14. 对比了 Transformer(ESWM-T)、LSTM(ESWM-LSTM)和 Mamba(ESWM-MAMBA)
  15. 关键发现:只有 Transformer 在 Open Arena(需要组合泛化)中成功,LSTM 和 Mamba 过拟合。这表明注意力机制——类似经典的内容可寻址记忆——是从情景记忆中学习可泛化世界模型的关键

训练策略

使用交叉熵损失,\(s_s\)\(a\)\(s_e\) 三个预测头等权。460K 迭代,batch size 128,cosine 学习率调度。元学习设置确保每个样本的环境、记忆库和查询都随机生成。

实验关键数据

主实验

环境 模型 状态预测准确率 动作预测准确率 对比 TEM-T
Open Arena ESWM-T-2L ~85% (\(s_s\)), ~85% (\(s_e\)) ~95% (\(a\)) TEM-T 显著低于 ESWM-T
Random Wall ESWM-T-14L 高精度 高精度 TEM-T 完全失败(无法处理变化结构)
MiniGrid 9×9 ESWM-T-12L 成功预测 成功预测
ProcThor 3D ESWM-T-12L 高余弦相似度 准确预测 \(\Delta xy\), \(\Delta\theta\)

下游任务表现

任务 指标 ESWM EPN (baseline) 最优 Oracle
探索(15步) 唯一状态访问数 比 EPN 多 16.8% ESWM 达 Oracle 的 96.48%
导航(成功率) success rate 96.8% 78.8% (+18%)
导航(路径最优性) path optimality 99.2% 78.2% (+21%)
适应性(加障碍后导航) success rate 93% 72% baseline 降到 56%

关键发现

  • Transformer 的注意力机制是从情景记忆集合中学习空间推理的关键,LSTM 和 Mamba 在需要组合泛化的 Open Arena 中失败
  • ESWM 的潜空间自发涌现出与环境拓扑一致的空间地图(ISOMAP 投影显示光滑流形,障碍区域对应局部不连续)
  • 路径长度在潜空间和物理空间中高度相关(\(R^2 = 0.89\)
  • 模型的预测不确定性(输出熵)随查询所需的记忆整合路径长度单调递增,证明模型确实在进行多步推理
  • 仅需 EPN 1/4 的记忆量即可实现更优导航,体现极高的样本效率

亮点与洞察

  • 从集合推理到空间地图:将世界建模从序列处理转化为集合推理是核心创新。模型不需要连续轨迹,只需要一组独立的 transition 记忆,这大幅降低了数据需求且天然支持动态环境
  • 记忆与推理解耦:环境知识存储在外部记忆库而非模型权重中,实现了真正的"即插即用"适应——修改几条记忆即可适应环境变化,无需重训练。这个设计理念可迁移到任何需要快速适应的场景
  • 认知地图的自发涌现:模型并未被显式要求学习空间结构,但训练后潜空间自然形成了与环境拓扑一致的几何地图。这与神经科学中海马体位置细胞的发现高度一致
  • 零样本下游能力:探索和导航都不需要额外训练,直接利用世界模型的预测和不确定性估计即可实现近最优策略

局限性 / 可改进方向

  • 实验环境仍以可控的离散/简单连续环境为主,尚未在真实机器人场景中验证
  • ProcThor 实验仅展示了可行性,未与强 baseline 对比
  • 记忆库的极小性约束在现实中难以满足——真实智能体的记忆往往包含冗余和噪声
  • 当前只处理空间结构,未建模语义信息(如物体类别、功能属性)
  • 元学习的训练成本较高(460K 迭代),且预训练环境的分布可能影响泛化

相关工作与启发

  • vs TEM (Whittington et al.): TEM 假设所有环境共享统一结构模板并将其编码到 RNN 权重中;ESWM 不做此假设,从外部记忆动态推理结构,能处理结构多变的环境(如随机迷宫)。TEM 在 Random Wall 上完全失败
  • vs GTM-SM (Fraccaro et al.): GTM-SM 同样依赖序列轨迹且假设共享结构;ESWM 操作于不相连的情景记忆,更 sample-efficient
  • vs Ha & Schmidhuber (2018) World Models: 传统世界模型将知识编码到权重中,无法快速适应环境变化;ESWM 的外部记忆机制实现了即时适应
  • 这篇工作为 embodied AI 和机器人导航提供了一个新范式:不需要在目标环境中大量训练,只需少量探索记忆即可建立可用的空间模型

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将世界建模从序列学习转化为集合推理,概念突破性强
  • 实验充分度: ⭐⭐⭐⭐ 从简单网格到 3D 环境逐步验证,分析充分,但真实场景验证不足
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,图表精美,神经科学动机与计算方法结合自然
  • 价值: ⭐⭐⭐⭐⭐ 提出了一个具有广泛影响力的新范式,在认知科学和 AI 的交叉点上做出了重要贡献