ST4VLA: Spatially Guided Training for Vision-Language-Action Models¶
会议: ICLR 2026
arXiv: 2602.10109
代码: https://internrobotics.github.io/internvla-m1.github.io
领域: autonomous_driving / embodied AI / robot manipulation
关键词: Vision-Language-Action, 空间引导训练, 双系统架构, 扩散策略, 机器人操控
一句话总结¶
提出 ST4VLA,通过两阶段空间引导训练(spatial grounding pre-training + spatially guided action post-training),将 VLM 的空间先验显式注入 VLA 策略学习,在 SimplerEnv 上将 Google Robot 成功率从 66.1% 提升至 84.6%,WidowX 从 54.7% 提升至 73.2%,达到 SOTA。
研究背景与动机¶
- VLM → VLA 的核心鸿沟:大规模视觉-语言模型在多模态理解上表现优异,但直接迁移到具身控制时,需要将文本指令转化为低层电机动作,文本-动作对在标准 VLM 数据中极度稀缺。
- 空间先验的重要性:物体识别、affordance 定位、视觉轨迹推理、相对位置感知等空间先验是机器人操控的可迁移通用知识,但现有方法未能有效利用。
- 层级系统的局限:传统层级式方法(如使用 SAM/DINO 外接 foundation model)依赖规则化任务分解和手工设计的规划启发式,难以自动扩展到复杂多样任务。
- 端到端 VLA 的过拟合问题:数据驱动的 VLA(如 OpenVLA、π₀)直接从预训练 VLM 微调学习控制,但容易过拟合低层运动模式,未能充分利用空间先验。
- 朴素共训练方法的梯度冲突:作者实验发现,直接将空间数据与动作数据联合训练(vanilla co-training)会导致空间感知与动作学习目标之间的梯度方向不一致(PSS 仅 0.25),引起不稳定震荡。
- 空间先验在微调后坍塌:直接将 VLM 微调为 VLA 后,RefCOCO-g 性能在 20k 步内急剧下降至近随机水平,说明动作训练会严重破坏已有空间表征。
方法详解¶
整体框架:双系统 VLA¶
ST4VLA 基于 Qwen2.5-VL 构建双系统架构:
- System 2(VLM Planner):多模态编码器,捕获空间和语义先验,负责高层规划和空间推理("慢但可靠"的推理器)
- System 1(Action Expert):轻量扩散 Transformer(DiT)+ DINOv2 视觉编码器,负责具身特定的快速运动控制
两个系统通过 Querying Transformer(仅 8.7MB)连接:使用 k 层交叉注意力模块,将 VLM Planner 生成的变长 latent spatial grounding embeddings 映射为固定数量的 learnable query tokens,传递给 Action Expert。
关键设计 1:空间提示(Spatial Prompting)¶
在动作后训练阶段,在标准任务指令后追加空间提示,显式激活 VLM 在空间预训练阶段学到的空间感知能力。例如: - 原始指令:"store all toys into the toy box" - 空间提示扩展:"Identify all relevant toys and their spatial relationships to the container." - 通用提示:"Figure out how to execute it, then locate the key object needed"
VLM 生成的 latent grounding embeddings 提供了显式空间线索,帮助动作生成。
关键设计 2:梯度衰减因子(Gradient Decay)¶
在 Querying Transformer 中引入梯度衰减因子(如 0.5),衰减从 Action Expert 反传到 VLM 的梯度,防止动作学习目标破坏 VLM 的语义推理能力,同时保留有效的联合优化。
两阶段训练流程¶
Stage 1:Spatial Grounding Pre-training - 统一大规模互联网视觉-语言 grounding 数据(RefCOCO、LLaVA-OneVision)与机器人特定数据集(RoboRefIt、A0、ST4VLA Data) - 训练内容包括:bounding box 检测、affordance 识别、轨迹预测 - 所有数据统一为 QA 格式,使用标准 SFT 框架训练 - 目标:建立通用且与机器人任务相关的空间表征
Stage 2:Spatially Guided Action Post-training - 动作数据 + 空间 grounding 数据联合训练 - VLM 通过 next-token prediction 在图像-prompt 对上更新 - 对动作数据引入空间提示增强语义-运动对齐 - Action Expert 通过 DiT 学习扩散策略 - 双监督策略:VLM Planner 的空间监督 + Action Expert 的动作监督
损失函数¶
- VLM Planner:标准自回归 next-token prediction loss(含空间 grounding 目标)
- Action Expert:扩散去噪损失(DiT)
- 联合优化,梯度衰减保护 VLM 参数
实验关键数据¶
主实验:SimplerEnv Benchmark¶
| 模型 | Google Robot VM | Google Robot VA | WidowX VM |
|---|---|---|---|
| RT-2-X | 46.3 | 54.4 | - |
| OpenVLA | 34.3 | 39.3 | 4.2 |
| CogACT | 74.8 | 61.3 | 51.3 |
| SpatialVLA | 75.1 | 70.7 | 42.7 |
| π₀ | 58.8 | 54.8 | 27.1 |
| GR00T N1.5 | 35.2 | 44.5 | 61.9 |
| Vanilla VLA | 66.1 | 63.5 | 54.7 |
| ST4VLA | 84.6 | 75.9 | 73.2 |
ST4VLA 在三个设定上全面 SOTA: - Google Robot VM 比次优 CogACT 高 +9.8% - Google Robot VA 比次优 SpatialVLA 高 +5.2% - WidowX VM 比次优 GR00T N1.5 高 +11.3%
消融实验:训练策略对比¶
| 训练策略 | Google Robot VM/VA | WidowX VM | RefCOCO-g IoU@0.5 |
|---|---|---|---|
| Vanilla VLA | 66.1/63.5 | 54.7 | 崩塌(近随机) |
| Vanilla Co-train | 70.2/66.5 | 61.1 | 47.1 |
| +Spatially Guided | 78.8/70.0 | 67.4 | 68.1 |
| +Spatially Pretrained (ST4VLA) | 84.6/75.9 | 73.2 | 71.2 |
- 空间预训练 + 空间引导共训练的叠加效果显著
- 梯度 PSS 从 vanilla co-train 的 0.25 提升至 spatially guided 的 0.42
真实世界 Pick-and-Place 泛化¶
| 模型 | In-dist. | 新实例 | 相似干扰 | 新背景 | 未见位置 | 未见方向 | 属性指令 | 空间指令 | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| π₀ | 45 | 32 | 25 | 27 | 18 | 32 | 37 | 31 | 31 |
| GR00T N1.5 | 78 | 46 | 40 | 47 | 20 | 40 | 59 | 53 | 48 |
| ST4VLA | 92 | 62 | 49 | 63 | 52 | 72 | 73 | 61 | 65 |
ST4VLA 在所有 8 个泛化维度全面领先,平均成功率 65% vs GR00T 48% vs π₀ 31%。
长时序操控¶
在桌面整理、抽屉收纳、三明治制作等长时序任务上,ST4VLA 在分布内、物理干扰、任务重规划三个设定下均优于 GR00T N1.5 和 π₀,展现了双系统框架的任务分解和动态适应能力。
关键发现¶
- 空间预训练是最关键的单一改进(VM +13.4%),空间提示在此基础上进一步增益
- 梯度对齐分析(PSS)首次量化了空间与动作优化目标的一致性
- 未见物体位置/方向的泛化提升尤为显著(位置 52% vs 20%/18%),说明空间先验有效提供了泛化基础
亮点与洞察¶
- 空间先验坍塌现象的首次系统分析:通过 RefCOCO-g 跟踪和 PSS 梯度对齐指标,清晰展示了 naive VLA 微调导致空间先验丧失的机制,并给出定量解释。
- 空间提示的简洁有效性:仅通过在指令后追加简单文本提示,即可显著提升空间-动作对齐,无需复杂的中间表示生成或额外模块。
- 双系统双监督设计优雅:System 1/2 的类比清晰,Querying Transformer 仅 8.7MB 极轻量,梯度衰减机制简单但关键。
- 评估全面且具挑战性:涵盖仿真基准、200 任务大规模 pick-and-place、真实世界 8 维泛化评估、长时序操控,评估设计具有说服力。
- 统一框架的扩展性:空间 grounding 预训练的数据来源广泛(web-scale + robot-specific),训练流程可复用到不同具身形态。
局限性¶
- VLM backbone 固定为 Qwen2.5-VL-3B:3B 参数相对较小,未验证更大模型(7B/72B)能否进一步提升效果或突破天花板。
- 空间提示的设计偏手工:虽然有效,但空间提示模板固定,未探索自动化提示生成或自适应提示策略。
- 实验平台有限:主要在 Franka 单臂机器人上验证,未涉及灵巧手、双臂、移动操控等更复杂具身形态。
- 推理效率:双系统架构(VLM + DiT + DINOv2)的推理延迟和实时性未分析,是否满足实际部署要求存疑。
- 与 π₀ 的数据公平性:π₀ 和 GR00T 使用了更大规模的预训练动作数据,直接比较不完全公平(尽管作者在 200 任务实验中做了对齐)。
相关工作¶
- 层级式机器人系统:SayCan、Code as Policies 等依赖规则任务分解,灵活性不足
- 端到端 VLA:RT-2、OpenVLA、π₀、CogACT 直接学动作但忽略空间先验
- 空间推理 VLA:SpatialVLA 引入空间表示但无空间提示引导;Magma 有空间预训练但无空间引导后训练
- 显式推理 VLA:ECOT(文本规划)、CoT-VLA(视觉链式思维)、OneTwoVLA(交替思考/执行)
- 本文定位:ST4VLA 统一了空间预训练和空间引导后训练,通过梯度对齐实现端到端优化,不依赖显式中间表示
评分¶
- 新颖性: ⭐⭐⭐⭐ (空间提示 + 梯度对齐的组合思路新颖,PSS 分析有理论洞察)
- 实验充分度: ⭐⭐⭐⭐⭐ (仿真/真实/大规模/长时序/泛化多维度全面评估)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,motivation 到方法再到实验逻辑通畅)
- 价值: ⭐⭐⭐⭐ (空间引导训练范式对 VLA 社区有重要参考价值,但需验证更多具身形态的适用性)