Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks¶

日期: 2026-03-10
arXiv: 2603.09513
代码: 有
领域: 机器人 / 强化学习
关键词: long-horizon manipulation, VQ-VAE, memory, non-Markovian, articulated objects

一句话总结¶

提出 RuleSafe 基准（LLM 生成的多阶段解锁规则，产生非马尔可夫长视野操纵任务）和 VQ-Memory 模块——通过 VQ-VAE 将关节状态历史编码为离散 token 再做 K-means 聚类（256→4 码字，~20 倍压缩），提供紧凑且噪声鲁棒的时序记忆表示，在 DP3/RDT/CogACT/π0 等 4 种策略上一致提升长视野操纵成功率（如 π0 从 0% 提升到 45%）。

研究背景与动机¶

领域现状: 机器人仿真基准（GenSim/RoboCasa 等）主要聚焦短视野的抓取放置任务，缺少涉及铰接物体（如门锁、保险柜）多步骤依赖的长期操纵任务。
现有痛点:
- 基准不足：现有铰接物体操纵基准仅涉及单关节运动（开门/关抽屉），缺乏多关节依赖的长视野任务
- 时序建模困难：非马尔可夫任务中，当前视觉观测无法推断任务阶段（如从外观看不出密码锁是否已解锁到第几步），需要记忆历史状态
- 现有记忆方案各有缺陷：视觉历史（Octo/RDT）计算成本高；原始关节状态序列虽轻量但对噪声敏感、容易过拟合特定轨迹
核心矛盾: 长视野操纵需要高效的时序记忆，但连续关节状态太嘈杂，视觉历史太昂贵——需要一种既紧凑又能过滤噪声保留高层语义的记忆表示
核心 idea 一句话: 用 VQ-VAE 将连续关节状态离散化为码本 token + K-means 聚类进一步压缩，得到既鲁棒又紧凑的时序记忆表示

方法详解¶

整体框架¶

当前观测 \(\boldsymbol{o}_t\)（双视角 RGB + 语言指令 + 关节状态）+ VQ-Memory token \(\boldsymbol{m}_t\)（编码历史关节状态）→ VLA/扩散策略 → 动作序列预测

关键设计¶

RuleSafe 基准设计:
- 做什么：LLM 辅助生成多种保险柜解锁机制（密钥锁、密码锁、逻辑锁）
- 核心思路：定义两种隐变量——part-phase（关节状态的离散化，如旋钮 open/closed）和 task-phase（任务进度追踪，如密码输入到第几位）。多步骤依赖使任务天然非马尔可夫
- 规模：20 条规则，Unitree H1-2 人形机器人 + Inspire 灵巧手，13 维动作空间
- 设计动机：part-phase 和 task-phase 都无法从单帧视觉推断→必须有记忆机制
VQ-VAE 离散化关节状态:
- 做什么：将 50 帧窗口的连续关节状态编码为离散码本 token
- 核心思路：编码器 \(z_t = \mathcal{E}(\boldsymbol{Q}_t)\) → 量化到最近码本条目 \(\boldsymbol{e}^k_t\) → 解码器重建 \(\hat{\boldsymbol{Q}}_t = \mathcal{D}(\boldsymbol{e}^k_t)\)
- 训练损失：\(L = \|\boldsymbol{Q}_t - \hat{\boldsymbol{Q}}_t\|_2^2 + \lambda(\|z_t - \text{sg}(\boldsymbol{e}^k_t)\|_2^2 + \|\text{sg}(z_t) - \boldsymbol{e}^k_t\|_2^2)\)，λ=4
- 窗口 50，步长 20 → ~20 倍压缩比（vs 之前工作 5:4 压缩比）
- 设计动机：不需要精确重建（只是辅助输入而非输出），所以可以用大窗口大步长激进压缩
K-means 聚类进一步压缩:
- 做什么：将 256 码本条目聚类为 4 个簇
- 核心思路：对学习好的码本做 K-means，每个码字映射到最近簇中心，簇索引作为最终 token
- 设计动机：256 码本中有大量冗余——不同码字可能对应同一任务阶段的微小变体。聚类后不同簇天然对应不同任务阶段（如 Fig.3 所示，聚类前序列杂乱，聚类后清晰显示阶段切换模式）
- vs 不聚类：聚类前模型仍然会过拟合细粒度变化（Tab.5 验证）
模型无关的集成方式:
- DP3（扩散策略 + 点云）：小卷积网络映射 memory token → 嵌入
- RDT/CogACT/π0（VLM 基础）：将 memory token 映射到 VLM 词表尾部的特殊 token，与语言 token 拼接

训练策略¶

VQ-VAE 单独预训练 → K-means 后处理 → 冻结 VQ-Memory 编码器 → 各策略模型正常训练（仅增加 memory token 输入）

实验关键数据¶

单任务设定（rule_020, 8 步长视野任务）¶

方法	成功率(%)	过程分(%)
π0 (无记忆)	0.0	10.6
π0 + raw memory	0.0	16.3
π0 + VQ-Memory	45.0	67.3

跨模型泛化（rule_020 单任务）¶

模型	无记忆 SR	+VQ-Memory SR	提升
DP3	5.0%	45.0%	+40%
RDT	0.0%	35.0%	+35%
CogACT	0.0%	20.0%	+20%
π0	0.0%	45.0%	+45%

多任务设定（20 条规则同时训练）¶

π0: 平均 SR 25.0% → π0 + VQ-Memory: 56.3%（+31.3%）
过程分: 48.8% → 76.5%（+27.7%）

消融实验（VQ-Memory 超参数）¶

簇数	rule_020 SR	说明
2	30.0%	太粗，丢失信息
4	45.0%	最优平衡
8	25.0%	过度细化
256 (无聚类)	15.0%	冗余导致过拟合

关键发现¶

原始关节状态记忆在长视野任务上完全失效（SR 仍为 0%），因为连续值的噪声敏感导致分布偏移
VQ-Memory 跨 4 种架构一致有效——模型无关性得到充分验证
4 个簇 = 最优：过少丢信息，过多导致过拟合——恰好对应保险柜操纵的主要阶段
在简单任务（rule_001, 3 步）上原始记忆就能改善（55% SR），但长视野（rule_020, 8 步）上只有 VQ-Memory 能工作

亮点与洞察¶

"过滤噪声 + 保留语义"的核心矛盾被 VQ 量化 + 聚类优雅解决——离散化天然过滤连续噪声，聚类进一步压缩到语义级粒度。这个 insight 可迁移到其他需要时序记忆的任务（如长视频理解）
RuleSafe 基准的设计思路（part-phase + task-phase）很有普适性——LLM 辅助生成规则使基准可持续扩展
~20 倍压缩比意味着极低的计算开销——每步只增加几个 token，而视觉历史方法需要数百个 token
聚类后的 token 序列可视化（Fig.3）直观展示了"不同颜色 = 不同任务阶段"——不是人工设计而是自发现的语义结构

局限性 / 可改进方向¶

聚类簇数需手动选择：不同任务复杂度可能需要不同粒度，自适应簇数选择是改进方向
仅用关节状态历史：未整合视觉特征的时序信息，可考虑 VQ 编码视觉+关节联合表示
成功率仍有提升空间：最好的多任务 SR 为 56.3%，距离完美还有很大差距
仿真到真实迁移未验证：RuleSafe 基于 SAPIEN 仿真，真实保险柜操纵的迁移能力未知
假设 proprioceptive 数据可靠，但真实机器人关节编码器可能有噪声

评分¶

新颖性: ⭐⭐⭐⭐ VQ-VAE+聚类作为时序记忆压缩是自然但有效的组合，RuleSafe 基准设计出色
实验充分度: ⭐⭐⭐⭐⭐ 4 种模型架构 × 单/多任务 × 详细超参数消融 × 可视化分析
写作质量: ⭐⭐⭐⭐ 问题动机层层递进，实验设计系统
价值: ⭐⭐⭐⭐⭐ 基准 + 方法双贡献，对长视野机器人操纵社区有直接推动