跳转至

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

会议: CVPR2026 arXiv: 2603.12193 代码: 项目主页 领域: 机器人 (Robotics) 关键词: 主动感知, 主动操控, Vision-Language-Action, 语义相机控制, 解耦动作空间, 3D空间感知

一句话总结

提出 SaPaVe 端到端框架,通过解耦相机运动与操控动作的两阶段自底向上学习策略,实现语义驱动的主动感知与视角不变的操控执行,在真实世界任务中超越 GR00T N1 和 π₀ 分别 31.25% 和 40%。

背景与动机

  1. 主动操控的核心挑战:机器人需要同时具备语义主动感知(strategically调整视角获取任务关键信息)和主动视角执行(在动态视角下稳健完成操作)两种互补能力,现有方法难以统一。
  2. VLM 离散化的局限性:基于 VLM 的方法将主动感知建模为 VQA 任务,从离散候选视角中选择最优视角,无法实现连续精细的相机控制。
  3. VLA 固定视角的脆弱性:现有端到端 VLA 模型(如 π₀、GR00T N1)主要在固定近最优视角下训练,对视角变化极为敏感,无法胜任主动操控场景。
  4. 数据获取代价高昂:同时包含头部相机运动和操控动作标注的真实世界数据极其稀缺且采集成本高,直接在统一动作空间中微调 VLA 会导致冲突和次优性能。
  5. 缺乏 3D 几何感知:当前 VLA 模型未充分利用 3D 几何先验,导致对相机扰动高度敏感,无法在视角变化下有效推理。
  6. 评测基准缺失:现有仿真基准(如 RLBench、CALVIN)均限于固定视角,缺乏专门评估主动操控能力的标准化 benchmark。

方法详解

整体框架

SaPaVe 基于 VLM 骨干,接收 RGB 图像和语言指令,通过解耦动作空间分别输出相机运动和操控动作。核心设计理念:相机运动是 embodiment-agnostic 的,比操控动作更容易学习,因此采用自底向上两阶段训练策略

关键设计

  1. 解耦动作头 (Decoupled Action Heads):设计两个独立解码器分别处理相机运动(2-DoF pitch/yaw)和操控动作(26-DoF 关节位置增量),避免统一动作空间导致的学习冲突。

  2. 相机适配器 (Camera Adapter):在 VLM 上添加 LoRA 适配器专门学习语义相机运动先验,不修改原始 VLM 权重,保留通用语义理解能力。

  3. 通用空间知识注入 (Universal Spatial Knowledge Injection, USKI):采用预训练的 3D 几何编码器(继承自 MAPAnything),支持任意类型的 3D 几何信息输入(深度图、相机内外参等),编码后的空间 token 与 VLM 输出 token 逐元素相加,注入解耦动作头指导动作解码,增强视角变化下的空间鲁棒性。

  4. ActiveViewPose-200K 数据集:包含 20万 图像-语言-相机运动三元组,通过 4k 高质量语义标注资产 + 500 多样场景 + 启发式算法 + GPT-4o 生成指令的半自动流程高效构建。

  5. ActiveManip-Bench 基准:基于 NVIDIA Isaac Sim 构建,包含 G1 人形机器人、12 个语义主动操控任务、100 个物体、20 个场景,首个仿真主动操控评测基准。

训练策略与损失

  • Stage 1 - 语义主动感知对齐:使用 ActiveViewPose-200K 仅训练 Camera Adapter 和相机解码器,损失为预测相机运动与 GT 的 MSE:\(\mathcal{L}_{\text{stage1}} = \mathcal{L}_{\text{MSE}}(A_{\text{head}}, A_{\text{head}}^*)\)
  • Stage 2 - 主动操控微调:冻结 Camera Adapter,混合 ActiveViewPose-200K 和机器人操控数据训练解耦动作头:\(\mathcal{L}_{\text{stage2}} = \lambda_{\text{head}} \mathcal{L}_{\text{head}} + \lambda_{\text{other}} \mathcal{L}_{\text{other}}\)

实验关键数据

语义主动感知评估(ActiveViewPose-200K 测试集)

方法 Val Test1 Test2 Avg
Qwen2.5-VL-72B 63.9 65.1 58.0 62.3
Multi-SpatialMLLM 72.8 74.3 63.6 70.2
Gemini-2.5-Pro 73.3 76.5 68.2 72.7
SaPaVe (Stage 1) 85.5 89.1 78.3 84.3

仅 2B 参数即超越 Gemini-2.5-Pro 11.6%,说明语义主动感知不是通用大模型的涌现能力,需要专门数据训练。

真实世界主动操控(与现有 VLA 比较)

方法 遮挡抓放 视野外抓放 遮挡关节操控 视野外关节操控 Avg
π₀ 55 45 45 35 45.00
GR00T-N1 60 55 50 50 53.75
SaPaVe 90 85 85 80 85.00

消融实验

消融项 遮挡抓放 视野外抓放 遮挡关节 视野外关节 Avg
w/o Stage 1 65 55 50 45 53.75
w/o Stage 2 75 60 70 60 66.25
w/o 解耦动作头 80 70 70 65 71.25
w/o Camera Adapter 80 75 70 70 73.75
w/o USKI 75 75 65 60 68.75
完整模型 90 85 85 80 85.00

每个组件都有显著贡献,Stage 1 对视野外任务影响最大(成功率减半),USKI 对基础操控鲁棒性至关重要。

亮点

  • 解耦思想精妙:将 embodiment-agnostic 的相机运动与 embodiment-specific 的操控动作解耦,既降低数据需求又避免学习冲突
  • 数据效率高:自底向上策略复用大规模易采集的相机运动数据,仅需少量机器人数据即可泛化
  • 完整生态:同时提出数据集(ActiveViewPose-200K)和评测基准(ActiveManip-Bench),填补主动操控评估空白
  • 实验说服力强:仿真+真实世界+泛化测试+全面消融,各组件贡献清晰
  • 实际差距显著:在真实世界中大幅超越 π₀(+40%)和 GR00T N1(+31.25%),证明了主动感知的必要性

局限性 / 可改进方向

  • 目前仅支持 2-DoF 头部相机运动(pitch/yaw),未扩展到 6-DoF 全自由度视角控制
  • 操控端基于 Unitree G1 人形机器人(26-DoF),对其他机器人形态的迁移性未充分验证
  • ActiveViewPose-200K 的相机运动由启发式算法生成,可能与人类直觉的视角调整策略存在差异
  • 仿真到真实世界的 sim-to-real 迁移细节讨论不足
  • 主动相机与手腕相机组合效果有限(Tab.2),暗示多视角融合策略仍有优化空间

与相关工作的对比

  • vs Next-Best-View 方法:NBV 方法非端到端且缺乏语义输入,SaPaVe 实现语义驱动的端到端主动感知
  • vs VQA-based 方法:VQA 方法(如 Look Further 等)在离散候选视角中选择,SaPaVe 在连续空间中直接预测相机运动
  • vs π₀ / GR00T N1:直接扩展这些 VLA 的动作空间包含相机运动效果差(统一空间冲突+缺乏感知先验),SaPaVe 通过解耦+两阶段策略大幅超越
  • vs Open-TeleVision 等遥操作方法:这些方法依赖昂贵的真实世界数据采集,SaPaVe 的相机运动训练数据可低成本大规模生成

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首个端到端主动操控框架,解耦+自底向上策略原创性强
  • 实验充分度: ⭐⭐⭐⭐⭐ — 仿真+真实+泛化+消融,数据集+基准同步推出
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分,但部分细节需查附录
  • 价值: ⭐⭐⭐⭐⭐ — 填补主动操控领域重要空白,对机器人社区有显著推动