MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation¶

会议: ICLR 2026
arXiv: 2508.19236
代码: 项目页面
领域: 机器人/VLA
关键词: VLA, 记忆机制, 长时序操作, 扩散策略, 认知科学

一句话总结¶

受认知科学双重记忆系统启发，提出MemoryVLA框架，在VLA模型中引入感知-认知记忆库（PCMB），通过记忆检索、门控融合和整合机制捕捉长时序依赖，在SimplerEnv/LIBERO/真实世界150+任务上全面超越CogACT和π₀。

领域现状：VLA模型（OpenVLA、π₀、CogACT）在机器人操作中取得显著进展，但主流方法仅依赖当前观测，忽略时序依赖——在长时序任务上表现差。如Push Buttons任务中，按压前后视觉几乎无差异，无法判断动作是否完成。

现有痛点：(1) 拼接多帧→自注意力二次复杂度+与单帧预训练分布不匹配；(2) RoboFlamingo用LSTM压缩→丢失细粒度信息；(3) TraceVLA画轨迹→丢失语义细节；(4) UniVLA加过去动作→只是CoT不是真正的记忆利用。

核心矛盾：机器人操作本质是非马尔可夫的（过去动作影响未来决策），但当前VLA模型是马尔可夫的（只看当前帧）。

切入角度：认知科学中人类通过工作记忆（短期）+情景记忆（长期，含verbatim细节和gist语义）来处理操作任务。据此设计PCMB存储感知细节和认知语义两个层次的记忆。

视觉-语言认知模块(7B VLM) → 感知tokens(\(p\)) + 认知token(\(c\)) = 工作记忆 → PCMB存储/检索/融合/整合 → 记忆条件化扩散动作专家生成动作序列。

视觉-语言认知模块:
- 功能：从当前RGB+语言指令提取感知tokens和认知token
- 核心思路：并行DINOv2+SigLIP视觉编码 → SE瓶颈压缩为256个感知tokens \(p\)；LLaMA-7B处理视觉+语言 → EOS位置输出认知token \(c\)
- 设计动机：感知tokens保留细粒度视觉信息，认知token编码高层语义理解
感知-认知记忆库 (PCMB):
- 记忆检索：当前tokens用时间位置编码作为query，对PCMB做cross-attention，检索决策相关历史 \(H^p, H^c\)
- 门控融合：\(\tilde{x} = g^x \odot H^x + (1-g^x) \odot x\)，\(g^x = \sigma(\text{MLP}(\text{concat}[x, H^x]))\)，自适应混合当前和历史信息
- 记忆整合：容量满时，计算相邻条目余弦相似度，合并最相似的一对 → 保留关键信息的同时控制大小
记忆条件化扩散动作专家:
- 功能：以记忆增强的感知+认知tokens为条件，用扩散Transformer生成未来N步7DoF动作
- 设计动机：扩散策略能捕捉多模态动作分布，记忆条件化使其时序感知

基准	MemoryVLA	CogACT	π₀	提升
SimplerEnv-Bridge	71.9%	57.3%	低于	+14.6
SimplerEnv-Fractal	72.7%	68.1%	低于	+4.6
LIBERO-5	96.5%	次优	次优	超越两者
Mikasa-Robo	41.2%	—	29.4%	+11.8

任务类型	MemoryVLA	CogACT	π₀
通用技能(6任务)	85%	76%	低
长时序依赖(6任务)	83%	57%	低→+26

认知科学驱动的设计：工作记忆+情景记忆的双重系统映射到感知tokens+认知token+PCMB。不是简单堆叠帧或LSTM，而是有认知理论支撑的记忆架构。
感知vs认知的分离：感知tokens(256个)保留空间细节，认知token(1个)压缩高层语义。PCMB分两个流存储和检索→不同任务需要不同层次的历史信息。
+26在长时序任务上：这个提升量说明记忆不是锦上添花而是必要条件——没有记忆的VLA在需要时序理解的任务上根本做不好。