StageCraft: Execution Aware Mitigation of Distractor and Obstruction Failures in VLA Models¶

日期: 2026-03-21
arXiv: 2603.20659
代码: 网站
领域: 机器人
关键词: VLA, distractor, environment preparation, VLM reasoning, plug-and-play

一句话总结¶

提出 StageCraft，免训练的 VLA 策略改进模块——通过分析少量策略 rollout 的成功/失败与初始场景中物体集合的关系，利用 VLM 推理识别导致策略失败的干扰物并在执行前最小化地移除它们，在三个真实任务中将 Pi0.5 和 SmolVLA 的成功率绝对提升 40%。

领域现状: VLA 模型（Pi0.5, SmolVLA）通过大规模预训练获得了跨任务泛化能力，但下游微调数据有限，导致对测试时环境中未见过的干扰物/障碍物脆弱。
现有痛点: (a) 不断收集数据+重新微调不现实；(b) 策略改进方法（RL, adapter）需大量 episode 且实际部署成本高；(c) 即使强大的预训练 VLA 也在干扰物面前频繁失败。
核心 idea: 不改策略本身，而是在执行前"布置舞台"——用 VLM 推理哪些物体可能导致失败，最小化地物理移除这些干扰物，使场景回到策略可处理的分布。

收集少量 rollout（不同干扰物配置下的成功/失败记录）→ VLM 分析物体集-成功率关系 → 推理新场景需移除哪些物体 → SAM3 检测+逆运动学原语执行移除 → 策略在修改后的场景中执行。

物体集创建与过渡策略:
- 从 rollout 中提取不同干扰物配置的成功率
- 保留成功率最高的物体子集集合 \(\mathcal{S}\)
- 新场景中选择 \(\mathcal{S}\) 中最大的可行子集，最小化需移除的物体数
- 未见过的干扰物自动被移除（保守策略）
自适应干预程度:
- 强策略 \(\pi_{strong}\)（95% 基线成功率）→ 平均仅 1.14 步干预
- 弱策略 \(\pi_{weak}\)（78% 基线成功率）→ 平均 3.09 步干预
- StageCraft 根据策略鲁棒性自动调整干预力度
VLM 推理执行:
- Gemini-3.1-pro 进行 in-context 推理（prompt following accuracy 95%）
- 显式的物体集策略比朴素 VLM 推理更一致准确（避免移除任务必需物体）

策略	环境 Three 原始	+ StageCraft	平均步数
\(\pi_{weak}\)	0%	66%	3.09
\(\pi_{strong}\)	85%	98%	1.14