Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks¶
日期: 2026-03-10
arXiv: 2603.09513
代码: 有
领域: 机器人 / 强化学习
关键词: long-horizon manipulation, VQ-VAE, memory, non-Markovian, articulated objects
一句话总结¶
提出 RuleSafe 基准(LLM 生成的多阶段解锁规则,产生非马尔可夫长视野操纵任务)和 VQ-Memory 模块——通过 VQ-VAE 将关节状态历史编码为离散 token 再做 K-means 聚类(256→4 码字,~20 倍压缩),提供紧凑且噪声鲁棒的时序记忆表示,在 DP3/RDT/CogACT/π0 等 4 种策略上一致提升长视野操纵成功率(如 π0 从 0% 提升到 45%)。
研究背景与动机¶
-
领域现状: 机器人仿真基准(GenSim/RoboCasa 等)主要聚焦短视野的抓取放置任务,缺少涉及铰接物体(如门锁、保险柜)多步骤依赖的长期操纵任务。
-
现有痛点:
- 基准不足:现有铰接物体操纵基准仅涉及单关节运动(开门/关抽屉),缺乏多关节依赖的长视野任务
- 时序建模困难:非马尔可夫任务中,当前视觉观测无法推断任务阶段(如从外观看不出密码锁是否已解锁到第几步),需要记忆历史状态
- 现有记忆方案各有缺陷:视觉历史(Octo/RDT)计算成本高;原始关节状态序列虽轻量但对噪声敏感、容易过拟合特定轨迹
-
核心矛盾: 长视野操纵需要高效的时序记忆,但连续关节状态太嘈杂,视觉历史太昂贵——需要一种既紧凑又能过滤噪声保留高层语义的记忆表示
-
核心 idea 一句话: 用 VQ-VAE 将连续关节状态离散化为码本 token + K-means 聚类进一步压缩,得到既鲁棒又紧凑的时序记忆表示
方法详解¶
整体框架¶
当前观测 \(\boldsymbol{o}_t\)(双视角 RGB + 语言指令 + 关节状态)+ VQ-Memory token \(\boldsymbol{m}_t\)(编码历史关节状态)→ VLA/扩散策略 → 动作序列预测
关键设计¶
-
RuleSafe 基准设计:
- 做什么:LLM 辅助生成多种保险柜解锁机制(密钥锁、密码锁、逻辑锁)
- 核心思路:定义两种隐变量——part-phase(关节状态的离散化,如旋钮 open/closed)和 task-phase(任务进度追踪,如密码输入到第几位)。多步骤依赖使任务天然非马尔可夫
- 规模:20 条规则,Unitree H1-2 人形机器人 + Inspire 灵巧手,13 维动作空间
- 设计动机:part-phase 和 task-phase 都无法从单帧视觉推断→必须有记忆机制
-
VQ-VAE 离散化关节状态:
- 做什么:将 50 帧窗口的连续关节状态编码为离散码本 token
- 核心思路:编码器 \(z_t = \mathcal{E}(\boldsymbol{Q}_t)\) → 量化到最近码本条目 \(\boldsymbol{e}^k_t\) → 解码器重建 \(\hat{\boldsymbol{Q}}_t = \mathcal{D}(\boldsymbol{e}^k_t)\)
- 训练损失:\(L = \|\boldsymbol{Q}_t - \hat{\boldsymbol{Q}}_t\|_2^2 + \lambda(\|z_t - \text{sg}(\boldsymbol{e}^k_t)\|_2^2 + \|\text{sg}(z_t) - \boldsymbol{e}^k_t\|_2^2)\),λ=4
- 窗口 50,步长 20 → ~20 倍压缩比(vs 之前工作 5:4 压缩比)
- 设计动机:不需要精确重建(只是辅助输入而非输出),所以可以用大窗口大步长激进压缩
-
K-means 聚类进一步压缩:
- 做什么:将 256 码本条目聚类为 4 个簇
- 核心思路:对学习好的码本做 K-means,每个码字映射到最近簇中心,簇索引作为最终 token
- 设计动机:256 码本中有大量冗余——不同码字可能对应同一任务阶段的微小变体。聚类后不同簇天然对应不同任务阶段(如 Fig.3 所示,聚类前序列杂乱,聚类后清晰显示阶段切换模式)
- vs 不聚类:聚类前模型仍然会过拟合细粒度变化(Tab.5 验证)
-
模型无关的集成方式:
- DP3(扩散策略 + 点云):小卷积网络映射 memory token → 嵌入
- RDT/CogACT/π0(VLM 基础):将 memory token 映射到 VLM 词表尾部的特殊 token,与语言 token 拼接
训练策略¶
VQ-VAE 单独预训练 → K-means 后处理 → 冻结 VQ-Memory 编码器 → 各策略模型正常训练(仅增加 memory token 输入)
实验关键数据¶
单任务设定(rule_020, 8 步长视野任务)¶
| 方法 | 成功率(%) | 过程分(%) |
|---|---|---|
| π0 (无记忆) | 0.0 | 10.6 |
| π0 + raw memory | 0.0 | 16.3 |
| π0 + VQ-Memory | 45.0 | 67.3 |
跨模型泛化(rule_020 单任务)¶
| 模型 | 无记忆 SR | +VQ-Memory SR | 提升 |
|---|---|---|---|
| DP3 | 5.0% | 45.0% | +40% |
| RDT | 0.0% | 35.0% | +35% |
| CogACT | 0.0% | 20.0% | +20% |
| π0 | 0.0% | 45.0% | +45% |
多任务设定(20 条规则同时训练)¶
- π0: 平均 SR 25.0% → π0 + VQ-Memory: 56.3%(+31.3%)
- 过程分: 48.8% → 76.5%(+27.7%)
消融实验(VQ-Memory 超参数)¶
| 簇数 | rule_020 SR | 说明 |
|---|---|---|
| 2 | 30.0% | 太粗,丢失信息 |
| 4 | 45.0% | 最优平衡 |
| 8 | 25.0% | 过度细化 |
| 256 (无聚类) | 15.0% | 冗余导致过拟合 |
关键发现¶
- 原始关节状态记忆在长视野任务上完全失效(SR 仍为 0%),因为连续值的噪声敏感导致分布偏移
- VQ-Memory 跨 4 种架构一致有效——模型无关性得到充分验证
- 4 个簇 = 最优:过少丢信息,过多导致过拟合——恰好对应保险柜操纵的主要阶段
- 在简单任务(rule_001, 3 步)上原始记忆就能改善(55% SR),但长视野(rule_020, 8 步)上只有 VQ-Memory 能工作
亮点与洞察¶
- "过滤噪声 + 保留语义"的核心矛盾被 VQ 量化 + 聚类优雅解决——离散化天然过滤连续噪声,聚类进一步压缩到语义级粒度。这个 insight 可迁移到其他需要时序记忆的任务(如长视频理解)
- RuleSafe 基准的设计思路(part-phase + task-phase)很有普适性——LLM 辅助生成规则使基准可持续扩展
- ~20 倍压缩比意味着极低的计算开销——每步只增加几个 token,而视觉历史方法需要数百个 token
- 聚类后的 token 序列可视化(Fig.3)直观展示了"不同颜色 = 不同任务阶段"——不是人工设计而是自发现的语义结构
局限性 / 可改进方向¶
- 聚类簇数需手动选择:不同任务复杂度可能需要不同粒度,自适应簇数选择是改进方向
- 仅用关节状态历史:未整合视觉特征的时序信息,可考虑 VQ 编码视觉+关节联合表示
- 成功率仍有提升空间:最好的多任务 SR 为 56.3%,距离完美还有很大差距
- 仿真到真实迁移未验证:RuleSafe 基于 SAPIEN 仿真,真实保险柜操纵的迁移能力未知
- 假设 proprioceptive 数据可靠,但真实机器人关节编码器可能有噪声
相关工作与启发¶
- vs AdaManip: 也用关节状态增强策略,但用原始连续值→噪声敏感;VQ-Memory 通过离散化+聚类解决了这一核心问题
- vs MemoryVLA: 压缩视觉历史为固定大小记忆库;VQ-Memory 则压缩关节状态→计算成本更低且互补
- vs TraceVLA: 将轨迹叠加到当前帧→空间编码但长上下文受限;VQ-Memory 通过离散 token 天然支持长历史
评分¶
- 新颖性: ⭐⭐⭐⭐ VQ-VAE+聚类作为时序记忆压缩是自然但有效的组合,RuleSafe 基准设计出色
- 实验充分度: ⭐⭐⭐⭐⭐ 4 种模型架构 × 单/多任务 × 详细超参数消融 × 可视化分析
- 写作质量: ⭐⭐⭐⭐ 问题动机层层递进,实验设计系统
- 价值: ⭐⭐⭐⭐⭐ 基准 + 方法双贡献,对长视野机器人操纵社区有直接推动