跳转至

StageCraft: Execution Aware Mitigation of Distractor and Obstruction Failures in VLA Models

日期: 2026-03-21
arXiv: 2603.20659
代码: 网站
领域: 机器人
关键词: VLA, distractor, environment preparation, VLM reasoning, plug-and-play

一句话总结

提出 StageCraft,免训练的 VLA 策略改进模块——通过分析少量策略 rollout 的成功/失败与初始场景中物体集合的关系,利用 VLM 推理识别导致策略失败的干扰物并在执行前最小化地移除它们,在三个真实任务中将 Pi0.5 和 SmolVLA 的成功率绝对提升 40%。

研究背景与动机

  1. 领域现状: VLA 模型(Pi0.5, SmolVLA)通过大规模预训练获得了跨任务泛化能力,但下游微调数据有限,导致对测试时环境中未见过的干扰物/障碍物脆弱。

  2. 现有痛点: (a) 不断收集数据+重新微调不现实;(b) 策略改进方法(RL, adapter)需大量 episode 且实际部署成本高;(c) 即使强大的预训练 VLA 也在干扰物面前频繁失败。

  3. 核心 idea: 不改策略本身,而是在执行前"布置舞台"——用 VLM 推理哪些物体可能导致失败,最小化地物理移除这些干扰物,使场景回到策略可处理的分布。

方法详解

整体框架

收集少量 rollout(不同干扰物配置下的成功/失败记录)→ VLM 分析物体集-成功率关系 → 推理新场景需移除哪些物体 → SAM3 检测+逆运动学原语执行移除 → 策略在修改后的场景中执行。

关键设计

  1. 物体集创建与过渡策略:

    • 从 rollout 中提取不同干扰物配置的成功率
    • 保留成功率最高的物体子集集合 \(\mathcal{S}\)
    • 新场景中选择 \(\mathcal{S}\) 中最大的可行子集,最小化需移除的物体数
    • 未见过的干扰物自动被移除(保守策略)
  2. 自适应干预程度:

    • 强策略 \(\pi_{strong}\)(95% 基线成功率)→ 平均仅 1.14 步干预
    • 弱策略 \(\pi_{weak}\)(78% 基线成功率)→ 平均 3.09 步干预
    • StageCraft 根据策略鲁棒性自动调整干预力度
  3. VLM 推理执行:

    • Gemini-3.1-pro 进行 in-context 推理(prompt following accuracy 95%)
    • 显式的物体集策略比朴素 VLM 推理更一致准确(避免移除任务必需物体)

实验关键数据

真实世界实验(3 个任务×2 个 VLA)

设置 SmolVLA SR Pi0.5 SR
Base (无干扰)
Distractor (1-5干扰物) 显著下降 显著下降
+ StageCraft +40% 绝对提升 +40% 绝对提升

仿真实验(RLBench)

策略 环境 Three 原始 + StageCraft 平均步数
\(\pi_{weak}\) 0% 66% 3.09
\(\pi_{strong}\) 85% 98% 1.14

关键发现

  • 朴素 VLM 推理(无物体集策略)移除物体数量不稳定(CV 57.8% vs 13.6%),甚至移除任务核心物体
  • 更多 in-context 样本提升 Monte Carlo 估计质量,StageCraft 性能随之提升
  • gemini-3.1-pro prompt following 95%,老代 VLM 则显著更差

亮点与洞察

  • "不改策略改环境"是个直觉但有效的范式——类似人类专家不需要简化环境而新手需要
  • 物体集形式化使推理可审计可复现——比开放式 VLM 推理可靠得多
  • 即插即用设计可与任何策略改进方法叠加使用

  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力

局限性 / 可改进方向

  • 仅处理可离散化为物体集的干扰——连续环境扰动(光照变化等)无法处理
  • VLM 上下文长度限制了 in-context 样本数(图像 token 密集)
  • 物理移除需要可靠的原语动作(拾取放置),复杂场景可能失败
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入

评分

  • 新颖性: ⭐⭐⭐⭐ 环境预备+最小干预的形式化有新意
  • 实验充分度: ⭐⭐⭐⭐⭐ 真实机器人+仿真+多 VLA+多 VLM 消融
  • 价值: ⭐⭐⭐⭐⭐ 对 VLA 实际部署鲁棒性有直接帮助