RMBench: Memory-Dependent Robotic Manipulation Benchmark¶

日期: 2026-03-01
arXiv: 2603.01229
代码: 项目页面
领域: 具身智能 / 机器人操作
关键词: robotic manipulation, memory-dependent tasks, policy benchmark, Mem-0, simulation

一句话总结¶

RMBench 提出首个系统评估机器人操作策略记忆能力的仿真 benchmark（9 个任务、多级记忆复杂度），配套 Mem-0 模块化策略支持受控消融，实验揭示现有策略的记忆短板并给出架构设计的经验指导。

研究背景与动机¶

领域现状：机器人操作策略近年进展快速（ACT、Diffusion Policy 等），但大多关注单步或短时任务，对记忆能力考虑有限。然而真实场景中很多任务需要记住历史观测（如"刚才把工具放哪了"）或保持任务相关信息。
现有痛点：(a) 缺乏系统评估策略记忆能力的 benchmark；(b) 记忆感知策略（如 transformer 长上下文）已有提出但未经系统比较；(c) 架构设计选择（如上下文长度、记忆模块类型）与记忆性能的关系不清楚
核心矛盾：不是所有策略都需要强记忆——但需要知道什么时候需要、需要多少
切入角度：构建分级记忆复杂度的 benchmark + 模块化策略做受控消融
核心 idea：benchmark + 诊断工具——用分级记忆任务暴露策略弱点，用模块化策略定位哪个设计决策影响记忆

方法详解¶

RMBench Benchmark¶

9 个仿真操作任务，按记忆复杂度分为三级： - Level 1（短期记忆）：需记住上一步的状态（如工具位置变化） - Level 2（多步记忆）：需跨多步保持信息（如按特定顺序操作） - Level 3（长期推理）：需基于全程历史做决策（如回忆之前隐藏的目标位置）

Mem-0 策略¶

模块化设计的操作策略，包含可插拔的： - 感知模块：处理当前视觉观测 - 记忆模块：存储和检索历史信息（可替换为 FIFO buffer、attention memory、RNN state 等） - 决策模块：基于当前感知+记忆输出动作

通过替换记忆模块做受控消融，识别哪种记忆架构在哪级任务上优劣。

实验关键数据¶

主实验¶

策略	Level 1	Level 2	Level 3	说明
ACT（无显式记忆）	好	中	差	短任务强，长程弱
Diffusion Policy	好	中	差	类似
Mem-0 (attention)	好	好	中	attention 记忆有帮助
Mem-0 (full)	好	好	较好	完整记忆模块最优

消融实验¶

记忆模块	Level 2 成功率	Level 3 成功率	说明
无记忆	基准	基准	纯反应式
FIFO buffer	+10%	+5%	简单有效
RNN state	+15%	+8%	隐状态记忆
Attention memory	+20%	+15%	最优

关键发现¶

现有主流策略（ACT、DP）在 Level 3 任务上成功率显著下降，证实记忆是被忽视的短板
Attention-based 记忆在所有级别上最优，但在 Level 3 仍不完美——说明记忆问题还远未解决
上下文长度与记忆性能正相关但边际递减——增加到一定程度后提升有限
真机实验验证了仿真结论的可迁移性

亮点与洞察¶

首个记忆维度的操作 benchmark：填补了策略评估中缺失的"记忆"维度
Mem-0 的模块化设计：支持公平对比不同记忆机制，方法论上值得借鉴
实用诊断价值：研究者可以快速判断自己的策略在哪个记忆级别开始失败

局限性 / 可改进方向¶

9 个任务覆盖面有限，更多真实场景任务（如厨房、仓库）待补充
Level 分级较人工，自动化记忆复杂度量化会更通用
Mem-0 本身不是 SOTA 策略，作为诊断工具有价值但不是最终方案

评分¶

新颖性: ⭐⭐⭐⭐ 记忆维度的 benchmark 视角新颖
实验充分度: ⭐⭐⭐⭐ 仿真+真机+消融全面
写作质量: ⭐⭐⭐⭐ 结构清晰
价值: ⭐⭐⭐⭐ 对机器人操作策略设计有实际指导意义