StageCraft: Execution Aware Mitigation of Distractor and Obstruction Failures in VLA Models¶
日期: 2026-03-21
arXiv: 2603.20659
代码: 网站
领域: 机器人
关键词: VLA, distractor, environment preparation, VLM reasoning, plug-and-play
一句话总结¶
提出 StageCraft,免训练的 VLA 策略改进模块——通过分析少量策略 rollout 的成功/失败与初始场景中物体集合的关系,利用 VLM 推理识别导致策略失败的干扰物并在执行前最小化地移除它们,在三个真实任务中将 Pi0.5 和 SmolVLA 的成功率绝对提升 40%。
研究背景与动机¶
-
领域现状: VLA 模型(Pi0.5, SmolVLA)通过大规模预训练获得了跨任务泛化能力,但下游微调数据有限,导致对测试时环境中未见过的干扰物/障碍物脆弱。
-
现有痛点: (a) 不断收集数据+重新微调不现实;(b) 策略改进方法(RL, adapter)需大量 episode 且实际部署成本高;(c) 即使强大的预训练 VLA 也在干扰物面前频繁失败。
-
核心 idea: 不改策略本身,而是在执行前"布置舞台"——用 VLM 推理哪些物体可能导致失败,最小化地物理移除这些干扰物,使场景回到策略可处理的分布。
方法详解¶
整体框架¶
收集少量 rollout(不同干扰物配置下的成功/失败记录)→ VLM 分析物体集-成功率关系 → 推理新场景需移除哪些物体 → SAM3 检测+逆运动学原语执行移除 → 策略在修改后的场景中执行。
关键设计¶
-
物体集创建与过渡策略:
- 从 rollout 中提取不同干扰物配置的成功率
- 保留成功率最高的物体子集集合 \(\mathcal{S}\)
- 新场景中选择 \(\mathcal{S}\) 中最大的可行子集,最小化需移除的物体数
- 未见过的干扰物自动被移除(保守策略)
-
自适应干预程度:
- 强策略 \(\pi_{strong}\)(95% 基线成功率)→ 平均仅 1.14 步干预
- 弱策略 \(\pi_{weak}\)(78% 基线成功率)→ 平均 3.09 步干预
- StageCraft 根据策略鲁棒性自动调整干预力度
-
VLM 推理执行:
- Gemini-3.1-pro 进行 in-context 推理(prompt following accuracy 95%)
- 显式的物体集策略比朴素 VLM 推理更一致准确(避免移除任务必需物体)
实验关键数据¶
真实世界实验(3 个任务×2 个 VLA)¶
| 设置 | SmolVLA SR | Pi0.5 SR |
|---|---|---|
| Base (无干扰) | 高 | 高 |
| Distractor (1-5干扰物) | 显著下降 | 显著下降 |
| + StageCraft | +40% 绝对提升 | +40% 绝对提升 |
仿真实验(RLBench)¶
| 策略 | 环境 Three 原始 | + StageCraft | 平均步数 |
|---|---|---|---|
| \(\pi_{weak}\) | 0% | 66% | 3.09 |
| \(\pi_{strong}\) | 85% | 98% | 1.14 |
关键发现¶
- 朴素 VLM 推理(无物体集策略)移除物体数量不稳定(CV 57.8% vs 13.6%),甚至移除任务核心物体
- 更多 in-context 样本提升 Monte Carlo 估计质量,StageCraft 性能随之提升
- gemini-3.1-pro prompt following 95%,老代 VLM 则显著更差
亮点与洞察¶
- "不改策略改环境"是个直觉但有效的范式——类似人类专家不需要简化环境而新手需要
- 物体集形式化使推理可审计可复现——比开放式 VLM 推理可靠得多
-
即插即用设计可与任何策略改进方法叠加使用
-
可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
局限性 / 可改进方向¶
- 仅处理可离散化为物体集的干扰——连续环境扰动(光照变化等)无法处理
- VLM 上下文长度限制了 in-context 样本数(图像 token 密集)
- 物理移除需要可靠的原语动作(拾取放置),复杂场景可能失败
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
-
更大规模和更多样化数据上的泛化能力需要进一步验证
-
消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入
评分¶
- 新颖性: ⭐⭐⭐⭐ 环境预备+最小干预的形式化有新意
- 实验充分度: ⭐⭐⭐⭐⭐ 真实机器人+仿真+多 VLA+多 VLM 消融
- 价值: ⭐⭐⭐⭐⭐ 对 VLA 实际部署鲁棒性有直接帮助