ST-VLA: Enabling 4D-Aware Spatiotemporal Understanding for General Robot Manipulation¶

日期: 2026-03-14
arXiv: 2603.13788
代码: ST-VLA
领域: 3D视觉 / 机器人操作
关键词: VLA, 3D-4D representation, robot manipulation, spatio-temporal reasoning, human demonstration

一句话总结¶

提出 ST-VLA 层级式 VLA 框架，通过统一的 3D-4D 中间表示（显式 3D 轨迹 + 平滑空间掩码）桥接高层 VLM 语义推理与低层 3D 策略执行，配合 ST-Human 大规模人操作数据集（30万 episodes、14 类任务）训练的 ST-VLM，在 RLBench 和真实场景上零样本成功率提升 44.6%。

研究背景与动机¶

领域现状: 层级式 VLA 架构（高层 VLM 做语义推理，低层策略做连续控制）是机器人操作的主流范式。现有方法用 2D waypoints、bounding box、分割掩码等作为中间表示连接两层。
现有痛点: (a) 2D 表示缺乏深度感知 — 平面表示无法捕捉深度和几何约束，导致空间对齐误差。(b) 逐帧信号忽略时间连续性 — 缺乏 4D 时空一致性建模，在动态/长horizon 任务中导致动作抖动。(c) 语义空间和物理空间的表示不匹配 — VLM 工作在静态投影域，机器人控制工作在连续 3D 物理空间。
核心矛盾: 2D 中间表示是有损桥梁，丢弃了关键的几何和时间线索，迫使低层策略从歧义信号推断缺失维度。
切入角度: 将 2D 引导提升为 3D 轨迹 + 4D 时空平滑掩码，构建统一的 3D-4D 中间表示；同时构建大规模 3D/4D 标注的人操作数据集训练 VLM 获得时空推理能力。
核心 idea: 用 3D-4D 统一表示替代 2D 中间表示，消除语义-物理空间的 mismatch。

方法详解¶

整体框架¶

双层架构：高层 ST-VLM（基于 Qwen3-VL-4B 微调）每 H 步生成子指令 + 2D 轨迹 → 提升到 3D 轨迹 + 平滑空间掩码 → 增强观测 → 低层 3D 策略（如 3D Diffusion Actor）输出 SE(3) keypose。

关键设计¶

统一 3D-4D 中间表示:
- 做什么：替代传统 2D 中间表示，为低层策略提供深度感知和时间一致的指导
- 3D 轨迹：VLM 预测 2D 轨迹 \(\tau_{2D}\) + 锚定起始深度 \(d_{start}\) + 后续点深度偏移 → 组合为 3D 轨迹 \(\tau_{3D}\)
- 平滑空间掩码：用 SAM2 生成目标分割掩码，对边界做平滑处理避免 latent 空间不连续 → 抑制模型幻觉，提升动作稳定性
- 每 H 步在线刷新（replanning），支持长 horizon 鲁棒执行
ST-Human 数据集:
- 做什么：提供 VLM 学习 3D-4D 推理的大规模监督数据
- 规模：430 万样本，30 万连续操作 episodes，14 类桌面操作任务
- 标注流程：人工标注初始/终点接触点 + 语义标签 → 自动化 pipeline 生成 2D（关键点轨迹、SAM2 跟踪）、3D（深度融合的 3D 轨迹、空间关系图）、4D（跨 episode 任务进度推理）任务标注
- 区别于 RoboPoint 等 2D 为主的数据集，包含稠密的连续 3D/4D 标注
ST-VLM 训练框架:
- 两阶段 SFT：先在公开多模态数据集（RoboPoint、FSD、SAT）学通用语义推理，再在 ST-Human 上领域微调
- 统一 2D-3D-4D 任务训练：同时学 2D 轨迹 grounding、深度感知 3D 推理、长 horizon 4D 规划
- 基于 Qwen3-VL-4B，学习从指令+RGB-D 观测输出结构化文本（归一化 2D 坐标 + 深度偏移）

损失函数 / 训练策略¶

标准 SFT loss（预测结构化文本输出）
推理时每 H 步刷新一次高层指导

实验关键数据¶

主实验（VLM 2D/3D/4D Benchmark 对比）¶

方法	RoboRefit(2D)	CVBench(3D)	SAT(4D)	ST-Depth(3D)
GPT-5.2	16.65%	79.62%	66.00%	4.00%
Qwen3VL-4B	83.63%	79.21%	68.67%	9.33%
Embodied-R1-3B	85.05%	81.69%	70.00%	2.70%
ST-VLA	88.15%	84.52%	75.33%	46.67%

RLBench 仿真实验（零样本成功率）¶

配置	Seen 平均	Unseen 平均	说明
3DDA baseline	42.0	23.4	无 ST-VLA
ST-VLA w/ 3DDA (FT)	66.7	66.0	+44.6% unseen
3DFA baseline	29.9	16.7	无 ST-VLA
ST-VLA w/ 3DFA (Frozen)	40.8	18.5	冻结 VLM 也有提升

关键发现¶

深度推理是最大差异化: ST-VLA 在 ST-Human-Depth 上达 46.67%，GPT-5.2 仅 4%，说明通用 VLM 的深度感知极弱
零样本 unseen 场景: 从 23.4% → 66.0%（+182%），说明 3D-4D 表示极大提升了泛化能力
平滑掩码 vs 硬掩码: 平滑掩码抑制了 latent 空间不连续导致的动作抖动
真实世界长 horizon 实验也显示执行稳定性和跨场景泛化
ST-Human-Planning 上 92% 远超现有方法，证实 4D 时间推理的有效性

亮点与洞察¶

"表示 mismatch 是瓶颈"的洞察很有深度 — 不是模型不够强，而是 2D 中间表示本身就丢失了低层策略需要的 3D/时间信息，直接从表示层面解决
平滑空间掩码的设计优雅 — 硬分割的不连续性在 latent 空间造成幻觉，做 smooth boundary 是简单但有效的解决方案，可以迁移到其他视觉引导的机器人系统
用人操作视频代替昂贵的机器人遥操收集数据是扩展性极好的策略

局限性 / 可改进方向¶

依赖 RGB-D 传感器获取深度信息，纯 RGB 场景无法直接应用
仅在桌面操作上验证，移动操作/多臂协作等场景未覆盖
每 H 步做推理的频率如何选择缺乏深入分析
低层策略仍需针对特定任务训练（非完全零样本）

评分¶

新颖性: ⭐⭐⭐⭐ 3D-4D 统一中间表示是机器人 VLA 的重要架构创新
实验充分度: ⭐⭐⭐⭐ VLM benchmark + RLBench仿真 + 真实世界，多维度验证
写作质量: ⭐⭐⭐⭐ 动机论证有力，框架图清晰
价值: ⭐⭐⭐⭐⭐ 零样本 +44.6% 是很大的提升，对具身智能方向有重要参考价值