跳转至

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

日期: 2026-03-10
arXiv: 2603.09513
代码:
领域: 机器人 / 强化学习
关键词: long-horizon manipulation, VQ-VAE, memory, non-Markovian, articulated objects

一句话总结

提出 RuleSafe 基准(LLM 生成的多阶段解锁规则,产生非马尔可夫长视野操纵任务)和 VQ-Memory 模块——通过 VQ-VAE 将关节状态历史编码为离散 token 再做 K-means 聚类(256→4 码字,~20 倍压缩),提供紧凑且噪声鲁棒的时序记忆表示,在 DP3/RDT/CogACT/π0 等 4 种策略上一致提升长视野操纵成功率(如 π0 从 0% 提升到 45%)。

研究背景与动机

  1. 领域现状: 机器人仿真基准(GenSim/RoboCasa 等)主要聚焦短视野的抓取放置任务,缺少涉及铰接物体(如门锁、保险柜)多步骤依赖的长期操纵任务。

  2. 现有痛点:

    • 基准不足:现有铰接物体操纵基准仅涉及单关节运动(开门/关抽屉),缺乏多关节依赖的长视野任务
    • 时序建模困难:非马尔可夫任务中,当前视觉观测无法推断任务阶段(如从外观看不出密码锁是否已解锁到第几步),需要记忆历史状态
    • 现有记忆方案各有缺陷:视觉历史(Octo/RDT)计算成本高;原始关节状态序列虽轻量但对噪声敏感、容易过拟合特定轨迹
  3. 核心矛盾: 长视野操纵需要高效的时序记忆,但连续关节状态太嘈杂,视觉历史太昂贵——需要一种既紧凑又能过滤噪声保留高层语义的记忆表示

  4. 核心 idea 一句话: 用 VQ-VAE 将连续关节状态离散化为码本 token + K-means 聚类进一步压缩,得到既鲁棒又紧凑的时序记忆表示

方法详解

整体框架

当前观测 \(\boldsymbol{o}_t\)(双视角 RGB + 语言指令 + 关节状态)+ VQ-Memory token \(\boldsymbol{m}_t\)(编码历史关节状态)→ VLA/扩散策略 → 动作序列预测

关键设计

  1. RuleSafe 基准设计:

    • 做什么:LLM 辅助生成多种保险柜解锁机制(密钥锁、密码锁、逻辑锁)
    • 核心思路:定义两种隐变量——part-phase(关节状态的离散化,如旋钮 open/closed)和 task-phase(任务进度追踪,如密码输入到第几位)。多步骤依赖使任务天然非马尔可夫
    • 规模:20 条规则,Unitree H1-2 人形机器人 + Inspire 灵巧手,13 维动作空间
    • 设计动机:part-phase 和 task-phase 都无法从单帧视觉推断→必须有记忆机制
  2. VQ-VAE 离散化关节状态:

    • 做什么:将 50 帧窗口的连续关节状态编码为离散码本 token
    • 核心思路:编码器 \(z_t = \mathcal{E}(\boldsymbol{Q}_t)\) → 量化到最近码本条目 \(\boldsymbol{e}^k_t\) → 解码器重建 \(\hat{\boldsymbol{Q}}_t = \mathcal{D}(\boldsymbol{e}^k_t)\)
    • 训练损失:\(L = \|\boldsymbol{Q}_t - \hat{\boldsymbol{Q}}_t\|_2^2 + \lambda(\|z_t - \text{sg}(\boldsymbol{e}^k_t)\|_2^2 + \|\text{sg}(z_t) - \boldsymbol{e}^k_t\|_2^2)\),λ=4
    • 窗口 50,步长 20 → ~20 倍压缩比(vs 之前工作 5:4 压缩比)
    • 设计动机:不需要精确重建(只是辅助输入而非输出),所以可以用大窗口大步长激进压缩
  3. K-means 聚类进一步压缩:

    • 做什么:将 256 码本条目聚类为 4 个簇
    • 核心思路:对学习好的码本做 K-means,每个码字映射到最近簇中心,簇索引作为最终 token
    • 设计动机:256 码本中有大量冗余——不同码字可能对应同一任务阶段的微小变体。聚类后不同簇天然对应不同任务阶段(如 Fig.3 所示,聚类前序列杂乱,聚类后清晰显示阶段切换模式)
    • vs 不聚类:聚类前模型仍然会过拟合细粒度变化(Tab.5 验证)
  4. 模型无关的集成方式:

    • DP3(扩散策略 + 点云):小卷积网络映射 memory token → 嵌入
    • RDT/CogACT/π0(VLM 基础):将 memory token 映射到 VLM 词表尾部的特殊 token,与语言 token 拼接

训练策略

VQ-VAE 单独预训练 → K-means 后处理 → 冻结 VQ-Memory 编码器 → 各策略模型正常训练(仅增加 memory token 输入)

实验关键数据

单任务设定(rule_020, 8 步长视野任务)

方法 成功率(%) 过程分(%)
π0 (无记忆) 0.0 10.6
π0 + raw memory 0.0 16.3
π0 + VQ-Memory 45.0 67.3

跨模型泛化(rule_020 单任务)

模型 无记忆 SR +VQ-Memory SR 提升
DP3 5.0% 45.0% +40%
RDT 0.0% 35.0% +35%
CogACT 0.0% 20.0% +20%
π0 0.0% 45.0% +45%

多任务设定(20 条规则同时训练)

  • π0: 平均 SR 25.0% → π0 + VQ-Memory: 56.3%(+31.3%)
  • 过程分: 48.8% → 76.5%(+27.7%)

消融实验(VQ-Memory 超参数)

簇数 rule_020 SR 说明
2 30.0% 太粗,丢失信息
4 45.0% 最优平衡
8 25.0% 过度细化
256 (无聚类) 15.0% 冗余导致过拟合

关键发现

  • 原始关节状态记忆在长视野任务上完全失效(SR 仍为 0%),因为连续值的噪声敏感导致分布偏移
  • VQ-Memory 跨 4 种架构一致有效——模型无关性得到充分验证
  • 4 个簇 = 最优:过少丢信息,过多导致过拟合——恰好对应保险柜操纵的主要阶段
  • 在简单任务(rule_001, 3 步)上原始记忆就能改善(55% SR),但长视野(rule_020, 8 步)上只有 VQ-Memory 能工作

亮点与洞察

  • "过滤噪声 + 保留语义"的核心矛盾被 VQ 量化 + 聚类优雅解决——离散化天然过滤连续噪声,聚类进一步压缩到语义级粒度。这个 insight 可迁移到其他需要时序记忆的任务(如长视频理解)
  • RuleSafe 基准的设计思路(part-phase + task-phase)很有普适性——LLM 辅助生成规则使基准可持续扩展
  • ~20 倍压缩比意味着极低的计算开销——每步只增加几个 token,而视觉历史方法需要数百个 token
  • 聚类后的 token 序列可视化(Fig.3)直观展示了"不同颜色 = 不同任务阶段"——不是人工设计而是自发现的语义结构

局限性 / 可改进方向

  • 聚类簇数需手动选择:不同任务复杂度可能需要不同粒度,自适应簇数选择是改进方向
  • 仅用关节状态历史:未整合视觉特征的时序信息,可考虑 VQ 编码视觉+关节联合表示
  • 成功率仍有提升空间:最好的多任务 SR 为 56.3%,距离完美还有很大差距
  • 仿真到真实迁移未验证:RuleSafe 基于 SAPIEN 仿真,真实保险柜操纵的迁移能力未知
  • 假设 proprioceptive 数据可靠,但真实机器人关节编码器可能有噪声

相关工作与启发

  • vs AdaManip: 也用关节状态增强策略,但用原始连续值→噪声敏感;VQ-Memory 通过离散化+聚类解决了这一核心问题
  • vs MemoryVLA: 压缩视觉历史为固定大小记忆库;VQ-Memory 则压缩关节状态→计算成本更低且互补
  • vs TraceVLA: 将轨迹叠加到当前帧→空间编码但长上下文受限;VQ-Memory 通过离散 token 天然支持长历史

评分

  • 新颖性: ⭐⭐⭐⭐ VQ-VAE+聚类作为时序记忆压缩是自然但有效的组合,RuleSafe 基准设计出色
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 种模型架构 × 单/多任务 × 详细超参数消融 × 可视化分析
  • 写作质量: ⭐⭐⭐⭐ 问题动机层层递进,实验设计系统
  • 价值: ⭐⭐⭐⭐⭐ 基准 + 方法双贡献,对长视野机器人操纵社区有直接推动