LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents¶

会议: NeurIPS 2025
arXiv: 2505.22634
代码: 有（项目主页）
领域: 具身AI / 科学实验 / 仿真平台
关键词: embodied agent, laboratory simulation, chemical reaction, hierarchical benchmark, imitation learning

一句话总结¶

提出 LabUtopia——面向科学实验室的高保真仿真与层级基准套件，包含支持化学反应建模的 LabSim 仿真器、可程序化生成实验室场景的 LabScene、以及从原子操作到长程移动操纵的五级 LabBench 基准，揭示现有模仿学习方法在长程实验流程和物体泛化方面的显著瓶颈。

研究背景与动机¶

领域现状：自动化实验室（SDL）可加速科学发现，但现有系统受限于预定义协议和硬件依赖，缺少通用的具身智能训练/评测平台
现有痛点：主流仿真器（AI2-THOR、OmniGibson、ManiSkill3）专注家居/工业环境，无法建模化学反应动力学（颜色变化、产物生成等），缺乏实验室级别的资产和评测协议
核心矛盾：实验室操作比家居操作复杂得多——涉及物理化学变化感知、多步长程规划、精细仪器操控，需要专门的仿真和基准
切入角度：构建完整的仿真-场景-基准三位一体平台，填补科学实验具身AI的空白
核心idea一句话：高保真化学反应仿真 + 程序化实验室场景生成 + 五级层级基准 = 科学具身AI的完整测试台

方法详解¶

整体框架¶

LabUtopia 由三个核心组件构成：(1) LabSim — 基于 Isaac Sim 的仿真引擎，扩展了化学反应建模；(2) LabScene — 实验室场景/仪器资产库 + 程序化场景生成；(3) LabBench — 30+ 任务的五级层级基准。

关键设计¶

LabSim 化学反应引擎：
构建了 200 种常见化学物质的结构化数据库（来自 PubChem，含颜色、摩尔质量、pH 等属性）
给定反应物，用 GPT-4o 推理化学反应过程（产物、颜色变化等），在仿真中动态更新物质的物理状态和视觉属性
支持刚体、可变形体、流体（GPU加速 PBD）的多物理交互
设计动机：化学反应的视觉变化（颜色、相态）是实验室agent感知的关键信号
LabScene 程序化场景生成：
~100 个专家验证的实验室场景 + ~60 类设备 + ~80 类玻璃/塑料器皿
混合布局策略：网格随机采样 + 约束感知深度优先搜索（碰撞/边界/仪器特有约束）
布局评分考虑边缘接近度、物体间距、朝向对齐
设计动机：多样化场景对agent泛化至关重要，但实验室场景稀缺
LabBench 五级任务层级：
Level 1（原子操作）：抓/倒/搅/按/放等单步动作
Level 2（短程复合）：2-3步动作序列（如开容器+倒试剂）
Level 3（泛化测试）：在未见过的物体形状/材质/场景上评测
Level 4（长程操纵）：多步实验流程（如清洗仪器程序），涉及高层规划
Level 5（移动操纵）：导航+操纵的联合任务
轨迹自动采集：原子动作用有限状态机+RMPflow控制器，任务级控制器组织原子动作；导航用A*+占据栅格图

实验关键数据¶

Level 1-2: ACT vs Diffusion Policy¶

任务	ACT	DP
Stir（Level 1）	86.7%	95.0%
Pick（Level 1）	75.0%	86.7%
Pour Liquid（Level 2）	67.5%	50.0%
Heater Beaker（Level 2）	86.7%	25.0%
Stir w/ GlassRod（Level 2）	55.0%	10.0%

Level 3: 泛化测试（ID / OOD）¶

任务	π₀	ACT	DP
Pick	83.3/85.8	81.7/71.7	53.3/41.7
Heater Beaker	89.1/86.7	86.7/80.0	21.6/8.3
Pour Liquid	40.0/38.3	75.0/65.0	46.6/31.6

Level 4: 长程任务（Clean Beaker, 7步）¶

ACT SP=14.0%, A1=99.3%, A2=51.9% ... A7=1.6% — 累积误差导致后期急剧下降
DP 后期几乎完全失败

形状泛化极端测试¶

ACT Pick OOD: 1.7%, Pour Liquid OOD: 0.0% — 两个模型都完全无法操纵未见尺寸的物体

关键发现¶

DP 容易"停滞"：预测horizon短导致悬停不动作（如按钮任务）
长程任务是主要瓶颈：7步任务成功率仅1.6%，累积误差是核心挑战
形状泛化几乎为零：联合训练不同尺寸物体后OOD成功率接近0%
π₀ 预训练VLA微调后OOD鲁棒但不跨越性领先：视觉变化泛化好但不一定优于从头训练

亮点与洞察¶

填补重要空白：首个支持化学反应建模的具身AI仿真平台，针对科学实验场景
层级基准设计优秀：五级渐进从原子操作到长程移动操纵，系统化暴露能力瓶颈
资产体量大：200+ 场景/仪器资产经专家验证，支持大规模训练
揭示深刻瓶颈：长程累积误差和形状泛化几乎为零是当前模仿学习的致命弱点

局限性 / 可改进方向¶

化学反应引擎依赖GPT-4o推理，可能存在化学知识错误
仅在仿真中验证，sim-to-real迁移未测试
Level 5（移动操纵）结果未充分报告
流体仿真基于PBD（非SPH/MPM），化学精度有限
场景生成主要靠启发式布局，未使用学习型方法

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个化学反应仿真+科学实验层级基准
实验充分度: ⭐⭐⭐⭐ 3个模型×5级任务，消融瓶颈分析充分
写作质量: ⭐⭐⭐⭐ 系统设计清晰，组件描述详尽
价值: ⭐⭐⭐⭐⭐ 填补科学实验具身AI的关键基础设施空白