RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset¶
会议: CVPR 2026
arXiv: 2603.11811
代码: 无
领域: 机器人学 / 具身智能 / 数据生成
关键词: 自主数据采集, 闭环机器人操作, 环境自动重置, 上下文模仿学习, VLM任务规划
一句话总结¶
提出RADAR——一个完全自主的闭环机器人操作数据生成引擎,通过VLM语义规划+GNN策略执行+VQA成功评估+FSM驱动的LIFO因果逆序环境重置四个模块,仅需2-5个人工演示即可持续生成高保真操作数据,在仿真中复杂长horizon任务达到90%成功率。
背景与动机¶
端到端具身智能模型(如\(\pi_0\)、RDT-1B)的scaling严重受限于大规模物理交互数据的获取成本。现有方案面临两难困境:仿真方法(如RoboGen、MimicGen)可扩展但存在sim-to-real gap;遥操作方法质量高但成本高且不可扩展。近期自主数据采集方案(如SOAR)尝试用VLM做任务提议和成功检测,但存在三个关键短板:(1) 视觉提示依赖脆弱的2D像素级猜测,缺乏3D运动学约束;(2) 执行策略是被动的,不能自主编排任务或验证结果;(3) 最致命的——无法实现环境自动重置,人必须反复介入恢复场景,破坏了闭环。
核心问题¶
如何构建一个真正的human-out-of-the-loop数据采集pipeline——让机器人自主规划任务、执行操作、评估成败、并在任务完成后自动恢复环境状态,从而实现持续不间断的数据生成?
方法详解¶
整体框架¶
RADAR将认知负载优雅地分为"大脑-小脑"协作模式:VLM作为"大脑"负责高层语义推理(任务规划+成功评估),GNN策略作为"小脑"负责亚毫米级物理控制。系统以2-5个人工演示构建的Affordance Library为基础先验,通过四个模块闭环运转:(1) 场景相关任务生成→(2) 上下文模仿学习执行→(3) VQA自动成功评估→(4) FSM编排的因果逆序环境重置。
关键设计¶
-
场景相关任务生成: 分为三步。首先用VLM做语义物体定位(Semantic Object Grounding),从当前场景图像提取结构化物体表示(名称+几何属性如"椭圆形"),作为后续规划的硬约束。然后进行层次化任务规划,根据场景复杂度自适应三种模式:简单场景直接做Affordance匹配(如把"折毛巾"映射到"合盒子"演示);复杂场景通过Selective Attention主动mask干扰物(如忽略草莓和魔方,只关注柠檬);长horizon任务则做技能链编排,同时生成正向执行序列和LIFO约束的逆向重置序列。最后通过双维度(动作相似性+几何/功能相似性)从Affordance Library中检索最匹配的3D演示作为执行先验。
-
上下文模仿学习执行 (ICIL): 基于Instant Policy框架,将模仿学习建模为图扩散生成问题。构建包含上下文演示、当前点云观测和未来动作的异构图,通过graph transformer的逆扩散过程迭代去噪生成可执行的连续轨迹。这使得系统能从单次视觉演示出发,零shot泛化到新物体,而不需要微调。关键是用VLM做语义级对象mask过滤点云中的干扰物体——消融实验表明去掉mask后成功率从80-100%暴跌到0-10%。
-
三阶段VQA自动成功评估: 为解决VLM直接评估指令式命令不可靠的问题,设计了三阶段流水线。(a) 语义任务转VQA查询:用LLM将动作命令(如"把黄球放蓝盘上")转为状态查询("黄球在布上还是桌上?");(b) VLM视觉评估:将执行后图像和VQA查询送入VLM(如GPT-4V)获取文本评估;(c) 鲁棒布尔解码:再用一个解析LLM将冗长的VLM回答蒸馏为严格二值信号True/False,驱动下游状态机。这种三阶段设计将VLM的视觉推理和确定性逻辑严格解耦。
-
FSM编排的自主环境重置: 关键创新是在任务规划阶段就同时生成正向计划和因果逆序(LIFO)重置计划。FSM将执行状态(A:规划, B:正向执行, C:逆向执行)和数据路由动作(D:双存储, E:单存储)显式解耦,支持三种循环:(a) 连续成功循环(B→C→B)——正向和逆向都成功,直接循环复执同一任务,触发双存储保存两条轨迹;(b) 非对称恢复循环(B→C→A)——正向成功但逆向失败,将未恢复场景作为新初始状态重新规划,只保存有效正向轨迹;(c) 正向中止(B→A)——正向失败直接丢弃重规划。这种设计使系统即使在重置失败时也能持续运转。
损失函数 / 训练策略¶
- ICIL策略使用图扩散模型的标准去噪训练目标
- 整体pipeline不需要端到端训练——VLM(GPT-4V/CogVLM)和GNN策略(Instant Policy)均使用预训练模型
- 实验采用1-shot演示作为上下文(更多演示收益不成正比)
- 技能检索用VLM替代CLIP——CLIP嵌入偏重名词,无法区分细粒度动作语义
实验关键数据¶
| 数据集 | 指标 | 本文 | ReKep | MOKA |
|---|---|---|---|---|
| RLBench - Large Container (Cup) | Success Rate | 0.80 | 0.20 | 0.20 |
| RLBench - Push Block | Success Rate | 1.00 | 0.40 | 0.40 |
| RLBench - Stack Block | Success Rate | 0.80 | 0.40 | 0.10 |
| RLBench - Close Box | Success Rate | 1.00 | 0.40 | 0.30 |
| RLBench - Put Laptop & Cup into Tray | Success Rate | 0.80 | 0.10 | 0.00 |
| RLBench - Push & Stack Blocks | Success Rate | 0.40 | 0.00 | 0.00 |
| RLBench - Close then Open Box | Success Rate | 0.90 | 0.20 | 0.10 |
消融实验要点¶
- 点云语义Mask至关重要:去掉VLM驱动的选择性注意力mask后,Large Container (Cup)从0.80→0.10,Push Block从1.00→0.00——干扰物体导致执行策略灾难性失败
- 用VLM替代CLIP做技能检索效果更好——CLIP对动作语义的区分能力不足
- 长horizon任务对基线方法几乎是致命的(ReKep和MOKA降到0-10%),而RADAR保持40-90%
亮点¶
- "大脑-小脑"协作的系统设计思路非常巧妙——VLM管语义推理,GNN管物理精度,各司其职
- 同时生成正向+LIFO逆向计划是核心insight——把环境重置建模为逆向任务规划问题,简洁优雅
- FSM的非对称恢复机制很务实——重置失败不阻塞pipeline,未恢复场景变新起点
- 三阶段VQA评估比单阶段VLM判断鲁棒得多——将视觉推理和布尔逻辑解耦
- 仅需2-5个人工演示+1-shot上下文学习即可泛化到新任务,数据效率极高
- 真实世界部署了可变形物体操作(折毛巾、插纸筒),验证了实际可行性
局限性 / 可改进方向¶
- 环境重置的累积失败率是根本瓶颈——\(p_{total} \approx p_{forward} \times p_{reverse}\),复杂场景下复合错误率高
- 目前FSM是proof-of-concept级,高度非结构化环境下的鲁棒重置仍是开放问题
- 真实世界只做了定性验证(毛巾折叠、抓取),缺乏大规模定量实验
- 依赖GPT-4V等商业VLM,成本和延迟可能挑战大规模部署
- 没有评估生成数据用于训练下游策略的效果——数据质量的最终验证缺失
- 仿真实验中环境重置用了ground truth(为隔离前向能力),模糊了完整闭环的定量评估
与相关工作的对比¶
- SOAR: 也用VLM做自主数据采集,但用SuSIE图像编辑扩散模型生成视觉子目标——会产生几何幻觉(如物体悬浮),且缺乏环境重置能力。RADAR用3D演示先验替代像素生成,完全规避幻觉问题
- MOKA: 用2D mark-based视觉提示做抓取推理,但2D像素空间缺乏运动学约束。RADAR通过Affordance Library提供3D先验,在需要精确接触的任务(如紧配合插入)中更可靠
- Instant Policy: RADAR直接采用其图扩散ICIL架构做低层执行。区别在于Instant Policy是被动执行引擎,RADAR将其嵌入完整认知闭环
启发与关联¶
- 同时规划正向动作和逆向重置的思路可以推广到工业自动化场景——任何需要循环执行的生产线任务都面临环境重置问题
- "大脑-小脑"分工模式对构建通用机器人系统有参考价值——不应该让VLM直接输出控制信号,而是让其做规划+验证,将精确控制交给专用策略
- 三阶段VQA评估的设计模式(命令→查询→评估→解码)可以用于其他需要VLM做可靠判断的场景
评分¶
- 新颖性: ⭐⭐⭐⭐ LIFO因果逆序重置和FSM非对称恢复是核心创新,整体系统设计巧妙
- 实验充分度: ⭐⭐⭐ 仿真实验充分但真实世界只有定性验证,缺少生成数据训练下游策略的闭环评估
- 写作质量: ⭐⭐⭐⭐ 系统描述清楚,FSM状态转换图直观,但部分用词偏marketing风
- 价值: ⭐⭐⭐⭐ 指出了自主数据采集的关键瓶颈(环境重置)并给出可行方案,方向价值高