ST-VLA: Enabling 4D-Aware Spatiotemporal Understanding for General Robot Manipulation¶
日期: 2026-03-14
arXiv: 2603.13788
代码: ST-VLA
领域: 3D视觉 / 机器人操作
关键词: VLA, 3D-4D representation, robot manipulation, spatio-temporal reasoning, human demonstration
一句话总结¶
提出 ST-VLA 层级式 VLA 框架,通过统一的 3D-4D 中间表示(显式 3D 轨迹 + 平滑空间掩码)桥接高层 VLM 语义推理与低层 3D 策略执行,配合 ST-Human 大规模人操作数据集(30万 episodes、14 类任务)训练的 ST-VLM,在 RLBench 和真实场景上零样本成功率提升 44.6%。
研究背景与动机¶
-
领域现状: 层级式 VLA 架构(高层 VLM 做语义推理,低层策略做连续控制)是机器人操作的主流范式。现有方法用 2D waypoints、bounding box、分割掩码等作为中间表示连接两层。
-
现有痛点: (a) 2D 表示缺乏深度感知 — 平面表示无法捕捉深度和几何约束,导致空间对齐误差。(b) 逐帧信号忽略时间连续性 — 缺乏 4D 时空一致性建模,在动态/长horizon 任务中导致动作抖动。(c) 语义空间和物理空间的表示不匹配 — VLM 工作在静态投影域,机器人控制工作在连续 3D 物理空间。
-
核心矛盾: 2D 中间表示是有损桥梁,丢弃了关键的几何和时间线索,迫使低层策略从歧义信号推断缺失维度。
-
切入角度: 将 2D 引导提升为 3D 轨迹 + 4D 时空平滑掩码,构建统一的 3D-4D 中间表示;同时构建大规模 3D/4D 标注的人操作数据集训练 VLM 获得时空推理能力。
-
核心 idea: 用 3D-4D 统一表示替代 2D 中间表示,消除语义-物理空间的 mismatch。
方法详解¶
整体框架¶
双层架构:高层 ST-VLM(基于 Qwen3-VL-4B 微调)每 H 步生成子指令 + 2D 轨迹 → 提升到 3D 轨迹 + 平滑空间掩码 → 增强观测 → 低层 3D 策略(如 3D Diffusion Actor)输出 SE(3) keypose。
关键设计¶
-
统一 3D-4D 中间表示:
- 做什么:替代传统 2D 中间表示,为低层策略提供深度感知和时间一致的指导
- 3D 轨迹:VLM 预测 2D 轨迹 \(\tau_{2D}\) + 锚定起始深度 \(d_{start}\) + 后续点深度偏移 → 组合为 3D 轨迹 \(\tau_{3D}\)
- 平滑空间掩码:用 SAM2 生成目标分割掩码,对边界做平滑处理避免 latent 空间不连续 → 抑制模型幻觉,提升动作稳定性
- 每 H 步在线刷新(replanning),支持长 horizon 鲁棒执行
-
ST-Human 数据集:
- 做什么:提供 VLM 学习 3D-4D 推理的大规模监督数据
- 规模:430 万样本,30 万连续操作 episodes,14 类桌面操作任务
- 标注流程:人工标注初始/终点接触点 + 语义标签 → 自动化 pipeline 生成 2D(关键点轨迹、SAM2 跟踪)、3D(深度融合的 3D 轨迹、空间关系图)、4D(跨 episode 任务进度推理)任务标注
- 区别于 RoboPoint 等 2D 为主的数据集,包含稠密的连续 3D/4D 标注
-
ST-VLM 训练框架:
- 两阶段 SFT:先在公开多模态数据集(RoboPoint、FSD、SAT)学通用语义推理,再在 ST-Human 上领域微调
- 统一 2D-3D-4D 任务训练:同时学 2D 轨迹 grounding、深度感知 3D 推理、长 horizon 4D 规划
- 基于 Qwen3-VL-4B,学习从指令+RGB-D 观测输出结构化文本(归一化 2D 坐标 + 深度偏移)
损失函数 / 训练策略¶
- 标准 SFT loss(预测结构化文本输出)
- 推理时每 H 步刷新一次高层指导
实验关键数据¶
主实验(VLM 2D/3D/4D Benchmark 对比)¶
| 方法 | RoboRefit(2D) | CVBench(3D) | SAT(4D) | ST-Depth(3D) |
|---|---|---|---|---|
| GPT-5.2 | 16.65% | 79.62% | 66.00% | 4.00% |
| Qwen3VL-4B | 83.63% | 79.21% | 68.67% | 9.33% |
| Embodied-R1-3B | 85.05% | 81.69% | 70.00% | 2.70% |
| ST-VLA | 88.15% | 84.52% | 75.33% | 46.67% |
RLBench 仿真实验(零样本成功率)¶
| 配置 | Seen 平均 | Unseen 平均 | 说明 |
|---|---|---|---|
| 3DDA baseline | 42.0 | 23.4 | 无 ST-VLA |
| ST-VLA w/ 3DDA (FT) | 66.7 | 66.0 | +44.6% unseen |
| 3DFA baseline | 29.9 | 16.7 | 无 ST-VLA |
| ST-VLA w/ 3DFA (Frozen) | 40.8 | 18.5 | 冻结 VLM 也有提升 |
关键发现¶
- 深度推理是最大差异化: ST-VLA 在 ST-Human-Depth 上达 46.67%,GPT-5.2 仅 4%,说明通用 VLM 的深度感知极弱
- 零样本 unseen 场景: 从 23.4% → 66.0%(+182%),说明 3D-4D 表示极大提升了泛化能力
- 平滑掩码 vs 硬掩码: 平滑掩码抑制了 latent 空间不连续导致的动作抖动
- 真实世界长 horizon 实验也显示执行稳定性和跨场景泛化
- ST-Human-Planning 上 92% 远超现有方法,证实 4D 时间推理的有效性
亮点与洞察¶
- "表示 mismatch 是瓶颈"的洞察很有深度 — 不是模型不够强,而是 2D 中间表示本身就丢失了低层策略需要的 3D/时间信息,直接从表示层面解决
- 平滑空间掩码的设计优雅 — 硬分割的不连续性在 latent 空间造成幻觉,做 smooth boundary 是简单但有效的解决方案,可以迁移到其他视觉引导的机器人系统
- 用人操作视频代替昂贵的机器人遥操收集数据是扩展性极好的策略
局限性 / 可改进方向¶
- 依赖 RGB-D 传感器获取深度信息,纯 RGB 场景无法直接应用
- 仅在桌面操作上验证,移动操作/多臂协作等场景未覆盖
- 每 H 步做推理的频率如何选择缺乏深入分析
- 低层策略仍需针对特定任务训练(非完全零样本)
相关工作与启发¶
- vs HAMSTER: 同为层级 VLA,但 HAMSTER 使用 2D 路径,ST-VLA 提升到 3D 轨迹 + 4D 时空
- vs RoboPoint/FSD: 这些提供 2D grounding 数据,ST-Human 增加了 3D 深度和 4D 时序维度
- vs RT-Trajectory/Track2Act: 基于 2D 轨迹条件化,ST-VLA 证明提升到 3D 后泛化能力大幅提升
评分¶
- 新颖性: ⭐⭐⭐⭐ 3D-4D 统一中间表示是机器人 VLA 的重要架构创新
- 实验充分度: ⭐⭐⭐⭐ VLM benchmark + RLBench仿真 + 真实世界,多维度验证
- 写作质量: ⭐⭐⭐⭐ 动机论证有力,框架图清晰
- 价值: ⭐⭐⭐⭐⭐ 零样本 +44.6% 是很大的提升,对具身智能方向有重要参考价值