RMBench: Memory-Dependent Robotic Manipulation Benchmark¶
日期: 2026-03-01
arXiv: 2603.01229
代码: 项目页面
领域: 具身智能 / 机器人操作
关键词: robotic manipulation, memory-dependent tasks, policy benchmark, Mem-0, simulation
一句话总结¶
RMBench 提出首个系统评估机器人操作策略记忆能力的仿真 benchmark(9 个任务、多级记忆复杂度),配套 Mem-0 模块化策略支持受控消融,实验揭示现有策略的记忆短板并给出架构设计的经验指导。
研究背景与动机¶
- 领域现状:机器人操作策略近年进展快速(ACT、Diffusion Policy 等),但大多关注单步或短时任务,对记忆能力考虑有限。然而真实场景中很多任务需要记住历史观测(如"刚才把工具放哪了")或保持任务相关信息。
- 现有痛点:(a) 缺乏系统评估策略记忆能力的 benchmark;(b) 记忆感知策略(如 transformer 长上下文)已有提出但未经系统比较;(c) 架构设计选择(如上下文长度、记忆模块类型)与记忆性能的关系不清楚
- 核心矛盾:不是所有策略都需要强记忆——但需要知道什么时候需要、需要多少
- 切入角度:构建分级记忆复杂度的 benchmark + 模块化策略做受控消融
- 核心 idea:benchmark + 诊断工具——用分级记忆任务暴露策略弱点,用模块化策略定位哪个设计决策影响记忆
方法详解¶
RMBench Benchmark¶
9 个仿真操作任务,按记忆复杂度分为三级: - Level 1(短期记忆):需记住上一步的状态(如工具位置变化) - Level 2(多步记忆):需跨多步保持信息(如按特定顺序操作) - Level 3(长期推理):需基于全程历史做决策(如回忆之前隐藏的目标位置)
Mem-0 策略¶
模块化设计的操作策略,包含可插拔的: - 感知模块:处理当前视觉观测 - 记忆模块:存储和检索历史信息(可替换为 FIFO buffer、attention memory、RNN state 等) - 决策模块:基于当前感知+记忆输出动作
通过替换记忆模块做受控消融,识别哪种记忆架构在哪级任务上优劣。
实验关键数据¶
主实验¶
| 策略 | Level 1 | Level 2 | Level 3 | 说明 |
|---|---|---|---|---|
| ACT(无显式记忆) | 好 | 中 | 差 | 短任务强,长程弱 |
| Diffusion Policy | 好 | 中 | 差 | 类似 |
| Mem-0 (attention) | 好 | 好 | 中 | attention 记忆有帮助 |
| Mem-0 (full) | 好 | 好 | 较好 | 完整记忆模块最优 |
消融实验¶
| 记忆模块 | Level 2 成功率 | Level 3 成功率 | 说明 |
|---|---|---|---|
| 无记忆 | 基准 | 基准 | 纯反应式 |
| FIFO buffer | +10% | +5% | 简单有效 |
| RNN state | +15% | +8% | 隐状态记忆 |
| Attention memory | +20% | +15% | 最优 |
关键发现¶
- 现有主流策略(ACT、DP)在 Level 3 任务上成功率显著下降,证实记忆是被忽视的短板
- Attention-based 记忆在所有级别上最优,但在 Level 3 仍不完美——说明记忆问题还远未解决
- 上下文长度与记忆性能正相关但边际递减——增加到一定程度后提升有限
- 真机实验验证了仿真结论的可迁移性
亮点与洞察¶
- 首个记忆维度的操作 benchmark:填补了策略评估中缺失的"记忆"维度
- Mem-0 的模块化设计:支持公平对比不同记忆机制,方法论上值得借鉴
- 实用诊断价值:研究者可以快速判断自己的策略在哪个记忆级别开始失败
局限性 / 可改进方向¶
- 9 个任务覆盖面有限,更多真实场景任务(如厨房、仓库)待补充
- Level 分级较人工,自动化记忆复杂度量化会更通用
- Mem-0 本身不是 SOTA 策略,作为诊断工具有价值但不是最终方案
相关工作与启发¶
- vs CALVIN: CALVIN 有长程任务但不专门评估记忆
- vs RLBench: RLBench 任务多但记忆维度未分级
评分¶
- 新颖性: ⭐⭐⭐⭐ 记忆维度的 benchmark 视角新颖
- 实验充分度: ⭐⭐⭐⭐ 仿真+真机+消融全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰
- 价值: ⭐⭐⭐⭐ 对机器人操作策略设计有实际指导意义