跳转至

RMBench: Memory-Dependent Robotic Manipulation Benchmark

日期: 2026-03-01
arXiv: 2603.01229
代码: 项目页面
领域: 具身智能 / 机器人操作
关键词: robotic manipulation, memory-dependent tasks, policy benchmark, Mem-0, simulation

一句话总结

RMBench 提出首个系统评估机器人操作策略记忆能力的仿真 benchmark(9 个任务、多级记忆复杂度),配套 Mem-0 模块化策略支持受控消融,实验揭示现有策略的记忆短板并给出架构设计的经验指导。

研究背景与动机

  1. 领域现状:机器人操作策略近年进展快速(ACT、Diffusion Policy 等),但大多关注单步或短时任务,对记忆能力考虑有限。然而真实场景中很多任务需要记住历史观测(如"刚才把工具放哪了")或保持任务相关信息。
  2. 现有痛点:(a) 缺乏系统评估策略记忆能力的 benchmark;(b) 记忆感知策略(如 transformer 长上下文)已有提出但未经系统比较;(c) 架构设计选择(如上下文长度、记忆模块类型)与记忆性能的关系不清楚
  3. 核心矛盾:不是所有策略都需要强记忆——但需要知道什么时候需要、需要多少
  4. 切入角度:构建分级记忆复杂度的 benchmark + 模块化策略做受控消融
  5. 核心 ideabenchmark + 诊断工具——用分级记忆任务暴露策略弱点,用模块化策略定位哪个设计决策影响记忆

方法详解

RMBench Benchmark

9 个仿真操作任务,按记忆复杂度分为三级: - Level 1(短期记忆):需记住上一步的状态(如工具位置变化) - Level 2(多步记忆):需跨多步保持信息(如按特定顺序操作) - Level 3(长期推理):需基于全程历史做决策(如回忆之前隐藏的目标位置)

Mem-0 策略

模块化设计的操作策略,包含可插拔的: - 感知模块:处理当前视觉观测 - 记忆模块:存储和检索历史信息(可替换为 FIFO buffer、attention memory、RNN state 等) - 决策模块:基于当前感知+记忆输出动作

通过替换记忆模块做受控消融,识别哪种记忆架构在哪级任务上优劣。

实验关键数据

主实验

策略 Level 1 Level 2 Level 3 说明
ACT(无显式记忆) 短任务强,长程弱
Diffusion Policy 类似
Mem-0 (attention) attention 记忆有帮助
Mem-0 (full) 较好 完整记忆模块最优

消融实验

记忆模块 Level 2 成功率 Level 3 成功率 说明
无记忆 基准 基准 纯反应式
FIFO buffer +10% +5% 简单有效
RNN state +15% +8% 隐状态记忆
Attention memory +20% +15% 最优

关键发现

  • 现有主流策略(ACT、DP)在 Level 3 任务上成功率显著下降,证实记忆是被忽视的短板
  • Attention-based 记忆在所有级别上最优,但在 Level 3 仍不完美——说明记忆问题还远未解决
  • 上下文长度与记忆性能正相关但边际递减——增加到一定程度后提升有限
  • 真机实验验证了仿真结论的可迁移性

亮点与洞察

  • 首个记忆维度的操作 benchmark:填补了策略评估中缺失的"记忆"维度
  • Mem-0 的模块化设计:支持公平对比不同记忆机制,方法论上值得借鉴
  • 实用诊断价值:研究者可以快速判断自己的策略在哪个记忆级别开始失败

局限性 / 可改进方向

  • 9 个任务覆盖面有限,更多真实场景任务(如厨房、仓库)待补充
  • Level 分级较人工,自动化记忆复杂度量化会更通用
  • Mem-0 本身不是 SOTA 策略,作为诊断工具有价值但不是最终方案

相关工作与启发

  • vs CALVIN: CALVIN 有长程任务但不专门评估记忆
  • vs RLBench: RLBench 任务多但记忆维度未分级

评分

  • 新颖性: ⭐⭐⭐⭐ 记忆维度的 benchmark 视角新颖
  • 实验充分度: ⭐⭐⭐⭐ 仿真+真机+消融全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰
  • 价值: ⭐⭐⭐⭐ 对机器人操作策略设计有实际指导意义