跳转至

SaPaVe: Towards Active Perception and Manipulation in VLA Models for Robotics

会议: CVPR 2026
arXiv: 2603.12193
代码: lmzpai.github.io/SaPaVe
领域: 机器人/具身智能
关键词: 主动感知, VLA, 人形机器人, 解耦动作空间, 语义相机控制

一句话总结

提出SaPaVe端到端主动操作框架,通过解耦相机动作和操作动作的自底向上训练策略(先学语义主动感知再学主动视角执行),配合200K相机控制数据集和3D空间知识注入,在真实世界任务中超越π0和GR00T N1高达31-40%成功率。

背景与动机

有效的主动操作需要两个互补能力:语义主动感知(根据任务语义调整视角,如移动头部看到被遮挡的碗)和主动视角执行(在动态视角下执行操作,如快速看一眼后立即抓取)。现有VLA模型训练在固定近最优视角下,对视角变化敏感;直接扩展动作空间加入相机运动会破坏预训练先验且需大量稀缺数据。

核心问题

如何让VLA模型同时具备语义主动感知和主动视角执行能力,且在数据高效的条件下实现——不需要大量昂贵的同时包含相机运动和操作动作的演示数据?

方法详解

整体框架

基于Eagle-2 VLM + Diffusion Transformer动作头。关键insight:相机运动是与具身形态无关的、更容易学习的信号。自底向上训练:Stage 1只学相机控制(200K大规模数据),Stage 2混合数据联合优化相机和操作。

关键设计

  1. 解耦动作头+相机适配器: 两个独立的MLP解码器——相机动作解码器(2-DoF: pitch/yaw)和操作动作解码器(26-DoF: 双臂+灵巧手)。相机适配器用LoRA在VLM上学习,仅<2%参数可训练,保持VLM语义能力不被破坏。

  2. 通用空间知识注入(Universal Spatial Knowledge Injection): 用MapAnything编码器处理任意组合的3D几何信息(深度图、相机内外参),输出空间token通过element-wise加法与VLM token融合,注入Diffusion Transformer的交叉注意力层。使模型具备视角不变的3D空间理解。

  3. ActiveViewPose-200K数据集+ActiveManip-Bench基准: 200K图像-语言-相机运动三元组数据集,分3类prompt(视觉居中/空间指令/常识推理)。活性操作基准包含12任务、100物体、20场景(含遮挡/视野外/无遮挡三类视觉复杂度),基于Isaac Sim+Unitree G1人形机器人。

损失函数 / 训练策略

  • Stage 1: 仅训练相机适配器+相机解码器,MSE损失监督相机运动
  • Stage 2: 冻结相机适配器,混合训练全部动作头,\(\mathcal{L} = \lambda_{head}\mathcal{L}_{head} + \lambda_{other}\mathcal{L}_{other}\)\(\lambda_{other}=10\lambda_{head}\)

实验关键数据

语义主动感知(ActiveViewPose测试集):

方法 Test1 Test2 平均
Gemini-2.5-Pro 76.5 68.2 72.7
Qwen2.5-VL-72B 65.1 58.0 62.3
SaPaVe (2B) 89.1 78.3 84.3

比Gemini-2.5-Pro高+11.6%(仅2B参数 vs 万亿级)。

真实世界主动操作(成功率%):

方法 遮挡P&P 视野外P&P 遮挡关节 视野外关节 平均
π0 55 45 45 35 45.00
GR00T-N1 60 55 50 50 53.75
SaPaVe 90 85 85 80 85.00

超越π0 +40%,GR00T-N1 +31.25%。

仿真ActiveManip-Bench: 固定相机36.17% → 主动相机(SaPaVe) 74.83%(+38.7%)。

消融实验要点

  • 去掉Stage 1: 平均成功率从85%降至53.75%,视野外任务尤其受损
  • 去掉Stage 2: 降至66.25%,操作能力受损
  • 统一动作头(不解耦): 降至71.25%,相机和操作动作相互干扰
  • 全微调VLM(不用LoRA adapter): 降至73.75%,破坏语义先验
  • 去掉空间知识注入: 降至68.75%,简单遮挡任务也下降15%

亮点

  • "自底向上"训练策略是核心创新:先学"看哪里"(数据充足、与具身形态无关),再学"怎么做"(混合数据高效微调)
  • ActiveViewPose-200K和ActiveManip-Bench填补了主动操作领域数据和评估的双重空白
  • 2B参数超越Gemini-2.5-Pro做语义相机控制,说明这不是通用VLM的涌现能力
  • 真实世界Unitree G1部署验证,泛化到未见物体/光照/场景

局限性 / 可改进方向

  • 固定底座限制了操作工作空间——感知范围 >操作范围
  • 主要在人形机器人(G1)上验证,未测试机械臂等其他具身形态
  • ActiveViewPose-200K基于合成场景,sim-to-real可能存在gap

与相关工作的对比

  • GR00T N1: NVIDIA最新通用人形VLA,真实世界53.75% vs SaPaVe 85%——缺乏主动感知先验
  • π0: 强通用VLA,45% vs 85%——直接微调VLA加入相机动作效果差
  • ActiveUMI/EgoMI: 也尝试主动感知但使用统一动作空间+数据密集策略

启发与关联

  • "相机运动与具身形态无关"是极重要的insight——做VLA不需要机器人数据来学看哪里
  • 解耦设计 + 自底向上训练可推广到其他需要协调感知和动作的系统
  • 主动感知 + 3D空间知识注入的组合可能是未来具身AI的标配

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 数据集+基准+方法+系统四个贡献都有,解耦自底向上策略是核心创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实世界、多baseline、泛化测试、充分消融
  • 写作质量: ⭐⭐⭐⭐ 清晰但附录过长
  • 价值: ⭐⭐⭐⭐⭐ 对具身AI/VLA方向有重要推动作用,填补了主动操作的关键空白