Building Spatial World Models from Sparse Transitional Episodic Memories¶

会议: ICLR2026
arXiv: 2505.13696
代码: 待确认
领域: 自监督学习 / 世界模型
关键词: world model, episodic memory, spatial reasoning, cognitive map, navigation

一句话总结¶

提出 Episodic Spatial World Model (ESWM)，从稀疏、不连续的情景记忆（one-step transitions）中构建空间世界模型，其潜空间自发涌现出与环境拓扑对齐的认知地图，并支持零样本探索和导航。

研究背景与动机¶

领域现状：现有世界模型（World Models）通常需要长序列连续轨迹进行训练，将环境知识编码到模型权重中。代表性方法如 TEM、GTM-SM 依赖连续观测序列并假设跨环境共享固定结构。
现有痛点：(1) 真实场景中智能体的观测往往是碎片化的——不同时间访问环境的不同部分，无法获得连续长轨迹；(2) 环境可能发生结构性变化（如新增障碍物），基于权重编码的模型需要重新训练才能适应；(3) 序列模型处理大环境时计算开销巨大。
核心矛盾：现有模型将环境结构知识编码在权重中，导致 (a) 无法从碎片化经验中快速建图，(b) 无法动态适应环境变化。
本文要解决什么：能否仅从稀疏、不相连的情景记忆中快速构建出一致的空间世界模型？
切入角度：受神经科学启发——内侧颞叶（MTL）同时负责空间表征和情景记忆，通过整合重叠的情景记忆构建关系网络。作者设想模型无需连续轨迹，只需一组独立的 one-step transition 即可推理出完整空间结构。
核心idea一句话：将世界建模从序列学习转化为集合推理——用 Transformer 从不相连的情景记忆集合中推断空间关系。

方法详解¶

整体框架¶

ESWM 的输入是一个记忆库 \(M\)（由多个不相连的 one-step transition \((s_s, a, s_e)\) 组成的无序集合）和一个部分掩码的查询 transition \(q\)（随机掩掉起始状态/动作/终止状态之一）。模型的目标是预测被掩码的元素。这实质上是一个集合到值的推理问题：从碎片化记忆中推断未观测的空间关系。

训练采用元学习策略：每个样本随机采样一个环境、一个记忆库、一个查询和一种掩码方式，使模型无法记忆特定环境，必须学会通用的空间推理能力。

关键设计¶

记忆库构建:
做什么：为每个环境生成一组覆盖全部位置但不形成连续轨迹的转移集合
核心思路：记忆库满足三个性质——不相连（transitions 不构成连续路径）、覆盖性（transitions 构成的图连通且覆盖所有位置）、极小性（去掉任何一个 transition 会导致图断连）
设计动机：极小性约束确保模型被迫进行多步推理（从多个记忆片段中推理出未直接观测到的空间关系），而非简单查表
掩码预测任务:
做什么：随机掩掉查询 transition 的一个分量（\(s_s\), \(a\), 或 \(s_e\)），模型预测被掩掉的值
核心思路：\(q^* = f(M, q)\)，其中 \(f\) 是 Transformer 编码器。每个 transition 的三个分量分别投影到共享高维空间并平均为单个 token，记忆库和查询的 tokens 拼接输入 Transformer，三个线性头分别预测 \(s_s\), \(a\), \(s_e\)
设计动机：三种掩码类型分别测试模型的"前向预测"（已知状态和动作，预测下一状态）、"动作推理"（已知起终点，推理动作）和"反向推理"（已知动作和终点，推理起点）能力
"不确定性"分类（I don't know）:
做什么：在部分记忆缺失时，模型需要判断查询是否可解
核心思路：训练时随机删除部分记忆，使环境出现未观测区域。对于涉及未观测区域的查询，模型需输出额外的"I don't know"类别
设计动机：这是后续探索算法的基础——智能体可以利用高"I don't know"概率来寻找信息增益最大的动作
架构对比:
对比了 Transformer（ESWM-T）、LSTM（ESWM-LSTM）和 Mamba（ESWM-MAMBA）
关键发现：只有 Transformer 在 Open Arena（需要组合泛化）中成功，LSTM 和 Mamba 过拟合。这表明注意力机制——类似经典的内容可寻址记忆——是从情景记忆中学习可泛化世界模型的关键

训练策略¶

使用交叉熵损失，\(s_s\)、\(a\)、\(s_e\) 三个预测头等权。460K 迭代，batch size 128，cosine 学习率调度。元学习设置确保每个样本的环境、记忆库和查询都随机生成。

实验关键数据¶

主实验¶

环境	模型	状态预测准确率	动作预测准确率	对比 TEM-T
Open Arena	ESWM-T-2L	~85% (\(s_s\)), ~85% (\(s_e\))	~95% (\(a\))	TEM-T 显著低于 ESWM-T
Random Wall	ESWM-T-14L	高精度	高精度	TEM-T 完全失败（无法处理变化结构）
MiniGrid 9×9	ESWM-T-12L	成功预测	成功预测	—
ProcThor 3D	ESWM-T-12L	高余弦相似度	准确预测 \(\Delta xy\), \(\Delta\theta\)	—

下游任务表现¶

任务	指标	ESWM	EPN (baseline)	最优 Oracle
探索（15步）	唯一状态访问数	比 EPN 多 16.8%	—	ESWM 达 Oracle 的 96.48%
导航（成功率）	success rate	96.8%	78.8% (+18%)	—
导航（路径最优性）	path optimality	99.2%	78.2% (+21%)	—
适应性（加障碍后导航）	success rate	93%	72%	baseline 降到 56%

关键发现¶

Transformer 的注意力机制是从情景记忆集合中学习空间推理的关键，LSTM 和 Mamba 在需要组合泛化的 Open Arena 中失败
ESWM 的潜空间自发涌现出与环境拓扑一致的空间地图（ISOMAP 投影显示光滑流形，障碍区域对应局部不连续）
路径长度在潜空间和物理空间中高度相关（\(R^2 = 0.89\)）
模型的预测不确定性（输出熵）随查询所需的记忆整合路径长度单调递增，证明模型确实在进行多步推理
仅需 EPN 1/4 的记忆量即可实现更优导航，体现极高的样本效率

亮点与洞察¶

从集合推理到空间地图：将世界建模从序列处理转化为集合推理是核心创新。模型不需要连续轨迹，只需要一组独立的 transition 记忆，这大幅降低了数据需求且天然支持动态环境
记忆与推理解耦：环境知识存储在外部记忆库而非模型权重中，实现了真正的"即插即用"适应——修改几条记忆即可适应环境变化，无需重训练。这个设计理念可迁移到任何需要快速适应的场景
认知地图的自发涌现：模型并未被显式要求学习空间结构，但训练后潜空间自然形成了与环境拓扑一致的几何地图。这与神经科学中海马体位置细胞的发现高度一致
零样本下游能力：探索和导航都不需要额外训练，直接利用世界模型的预测和不确定性估计即可实现近最优策略

局限性 / 可改进方向¶

实验环境仍以可控的离散/简单连续环境为主，尚未在真实机器人场景中验证
ProcThor 实验仅展示了可行性，未与强 baseline 对比
记忆库的极小性约束在现实中难以满足——真实智能体的记忆往往包含冗余和噪声
当前只处理空间结构，未建模语义信息（如物体类别、功能属性）
元学习的训练成本较高（460K 迭代），且预训练环境的分布可能影响泛化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将世界建模从序列学习转化为集合推理，概念突破性强
实验充分度: ⭐⭐⭐⭐ 从简单网格到 3D 环境逐步验证，分析充分，但真实场景验证不足
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，图表精美，神经科学动机与计算方法结合自然
价值: ⭐⭐⭐⭐⭐ 提出了一个具有广泛影响力的新范式，在认知科学和 AI 的交叉点上做出了重要贡献