RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation¶

会议: NeurIPS 2025
arXiv: 2506.06677
代码: robocerebra.github.io
领域: 机器人
关键词: 长程操作, 基准评测, System 2推理, 分层规划, VLM评估

一句话总结¶

提出RoboCerebra长程机器人操作基准，包含1000条人类示范轨迹（平均2972步，约为现有基准的6倍），通过分层规划与执行框架和多维评估协议，系统测评VLM在规划、反思和记忆三个System 2认知维度上的能力。

研究背景与动机¶

当前VLM在机器人操作中的应用主要停留在快速反应式的System 1层面——VLA模型将多模态输入直接映射为低层控制信号。然而VLM真正的优势在于语义抽象、关系理解和上下文推理，这些恰好对应慢思考的System 2过程（长程规划、子目标分解、自适应调整）。现有基准数据集的不足直接阻碍了System 2能力的研究：

时间尺度过短：LIBERO-Long和RoboCasa等"长程"基准通常只有2-5个子任务，不超过500步动作，难以测试记忆维持、时间抽象等真正的长程推理需求。

缺乏动态场景和记忆需求：真实世界中物体会被移动、遮挡、状态改变，机器人需要记住之前探索的柜子里有什么、在哪里放过东西。现有基准几乎没有这类设计。

评估维度单一：大多基准仅用二值任务成功率评估，无法区分规划能力、感知判断、记忆利用等具体认知维度的表现。

RoboCerebra致力于填补这一空白，构建真正的长程任务环境来全面测评VLM作为System 2高层推理器的能力。

方法详解¶

整体框架¶

RoboCerebra包含三大组件：(1) 基于LLM生成和人类执行的大规模仿真数据集；(2) 分层规划与执行(HPE)框架——VLM做高层规划+VLA做低层控制；(3) 多维评估协议——固定System 1评估不同VLM的System 2能力。

关键设计¶

自上而下的数据生成管线：
- 级联任务生成：从LIBERO物品库随机采样物体，转换为结构化表示（类别、功能、空间上下文），喂给GPT生成高层任务描述（如"在微波炉中加热牛奶"），再分解为子任务序列。通过affordance-aware的提示设计确保时间一致性和物理可行性。
- 场景初始化与双重验证：将结构化计划解析为模拟器可执行代码，通过符号检查（物体状态一致性）和视觉语言验证（GPT-4o评判多视角渲染的空间合理性）的双重循环保证场景质量。
- 人类示范与标注：人类操作员在仿真中执行任务，生成多样化动作轨迹，并标注精细的子任务时间边界。共投入400小时用于轨迹采集+200小时用于质量验证。
六类子任务设计：
- Ideal：静态全可观察基线
- Memory Exploration：需主动探索环境构建内部表征（如检查柜子各隔间内容）
- Memory Execution：需利用记忆完成目标（感知线索被移除）
- Random Disturbance：引入意外的环境变化（物体位移、碰撞）
- Observation Mismatching：需应对计划-感知不一致
- Mix：结合记忆和动态因素，需持续在不确定性下重新规划
分层规划与执行(HPE)框架：
- VLM规划器：处理低频观测，生成和更新子任务级子目标，存入记忆库。训练时用成功/失败标注的视频-指令对进行对比学习，使VLM能评估任务进度。
- VLA控制器：基于OpenVLA，在子任务级别训练，消费高频视觉输入执行精细动作。
- 记忆库：连接两个模块的共享状态，VLM检测到子目标完成或偏差时更新记忆和下一个子目标。

损失函数 / 训练策略¶

VLA训练：从长程示范中采样(图像, 指令, 动作)三元组，将连续动作离散化为token序列，用next-token prediction训练。200K步，batch size 64，256×256输入。
VLM训练：用子任务级视频片段配合成功/失败标签进行对比学习，使VLM学会判断任务完成状态。

实验关键数据¶

主实验¶

不同System 1+System 2组合的长程任务表现

方法	平均SR	Random	Obs.Mis.	Mem.Exp.	Mem.Exe.	Mix	Ideal
OpenVLA（仅System 1）	2.00%	4.59%	1.35%	0.18%	1.86%	0.00%	4.05%
OpenVLA*（微调）	4.57%	7.84%	8.65%	1.06%	2.06%	0.00%	7.84%
Planner+OpenVLA*	16.04%	18.63%	19.45%	8.04%	16.69%	11.48%	21.92%
HPE框架	16.55%	18.63%	19.18%	9.06%	17.83%	13.21%	21.10%

不同VLM作为System 2 Planner的对比

Planner模型	平均SR	Mem.Exp.	Mix	Ideal
GPT-4o	16.04%	8.04%	11.48%	21.92%
GPT-4o-Blind	15.10%	7.02%	10.48%	20.00%
Qwen2.5-VL	11.19%	2.63%	6.67%	16.71%
LLaVA-Next-Video	11.37%	1.07%	3.70%	19.73%
GT-plan（上界）	25.16%	19.47%	19.26%	31.23%

消融实验¶

System 2多维评估

模型	规划准确率↑	反思能力↑	成功率↑	规划长度↓	规划效率↑
GPT-4o	68.33%	32.66%	16.04%	10.67	1.50
GPT-4o-Blind	61.37%	0.00%	15.10%	10.73	1.41
Qwen2.5-VL-7B	44.67%	47.74%	11.19%	8.30	1.34
Qwen2.5-VL-7B-SFT	30.00%	66.83%	9.33%	6.95	1.32

关键发现¶

System 1在长程任务中彻底失败：即使微调后的OpenVLA在Ideal设置下也仅4-8%成功率，在Mix设置中完全失败（0%），证实了System 2的不可或缺性。
System 2提升在复杂任务中更显著：HPE框架在Mix任务（需记忆+动态适应）上从0%提升到13.21%，但在简单的Ideal任务中可能因推理开销反而不如纯Planner方案。
规划能力>感知能力：GPT-4o即使不看图（Blind模式）依然保持15.10%成功率，而Qwen2.5-VL微调后反思能力提升（66.83%）但规划准确率下降（30%），总成功率反而更低。说明当前长程任务中，规划推理比感知判断更为关键。
与GT-plan仍有9%差距：说明VLM的环境交互不足和视觉领域差距仍是主要瓶颈。

亮点与洞察¶

数据规模突破性：平均轨迹长度2972步，是现有长程基准的6倍，真正考验了长时间记忆和多步推理。
认知维度解耦评估：通过固定System 1来隔离评估System 2的规划、反思、记忆能力，这种方法论值得学习。
System 1+2协同范式：明确了VLM应作为高层推理器而非直接控制器使用，为机器人AI系统架构提供了清晰参考。

局限与展望¶

System 1和System 2之间的交互仍较有限，缺乏细粒度的双向反馈机制。
评估协议可进一步扩展执行级信号，如子任务排序正确性、失败恢复能力等。
仿真到真实世界的迁移未验证，虽然论文认为System 2关注的是高层推理而非低层控制，sim-to-real gap影响较小。
数据生成管线依赖GPT和人类操作员，扩展到更多环境和任务类型的成本较高。

评分¶

新颖性: ⭐⭐⭐⭐ 长程操作基准的系统化构建和认知维度解耦评估设计原创
实验充分度: ⭐⭐⭐⭐ 多个VLM的横向对比+多维度评估+不同VLA后端验证，但绝对性能偏低
写作质量: ⭐⭐⭐⭐ 结构清晰，数据集构建和评估方法描述详尽
价值: ⭐⭐⭐⭐⭐ 填补了长程操作评测的重要空白，为VLM在机器人中的角色定位提供了实验依据