SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics¶

会议: CVPR2026 arXiv: 2603.12193 代码: 项目主页领域: 机器人 (Robotics) 关键词: 主动感知, 主动操控, Vision-Language-Action, 语义相机控制, 解耦动作空间, 3D空间感知

一句话总结¶

提出 SaPaVe 端到端框架，通过解耦相机运动与操控动作的两阶段自底向上学习策略，实现语义驱动的主动感知与视角不变的操控执行，在真实世界任务中超越 GR00T N1 和 π₀ 分别 31.25% 和 40%。

主动操控的核心挑战：机器人需要同时具备语义主动感知（strategically调整视角获取任务关键信息）和主动视角执行（在动态视角下稳健完成操作）两种互补能力，现有方法难以统一。
VLM 离散化的局限性：基于 VLM 的方法将主动感知建模为 VQA 任务，从离散候选视角中选择最优视角，无法实现连续精细的相机控制。
VLA 固定视角的脆弱性：现有端到端 VLA 模型（如 π₀、GR00T N1）主要在固定近最优视角下训练，对视角变化极为敏感，无法胜任主动操控场景。
数据获取代价高昂：同时包含头部相机运动和操控动作标注的真实世界数据极其稀缺且采集成本高，直接在统一动作空间中微调 VLA 会导致冲突和次优性能。
缺乏 3D 几何感知：当前 VLA 模型未充分利用 3D 几何先验，导致对相机扰动高度敏感，无法在视角变化下有效推理。
评测基准缺失：现有仿真基准（如 RLBench、CALVIN）均限于固定视角，缺乏专门评估主动操控能力的标准化 benchmark。

SaPaVe 基于 VLM 骨干，接收 RGB 图像和语言指令，通过解耦动作空间分别输出相机运动和操控动作。核心设计理念：相机运动是 embodiment-agnostic 的，比操控动作更容易学习，因此采用自底向上两阶段训练策略。

解耦动作头 (Decoupled Action Heads)：设计两个独立解码器分别处理相机运动（2-DoF pitch/yaw）和操控动作（26-DoF 关节位置增量），避免统一动作空间导致的学习冲突。
相机适配器 (Camera Adapter)：在 VLM 上添加 LoRA 适配器专门学习语义相机运动先验，不修改原始 VLM 权重，保留通用语义理解能力。
通用空间知识注入 (Universal Spatial Knowledge Injection, USKI)：采用预训练的 3D 几何编码器（继承自 MAPAnything），支持任意类型的 3D 几何信息输入（深度图、相机内外参等），编码后的空间 token 与 VLM 输出 token 逐元素相加，注入解耦动作头指导动作解码，增强视角变化下的空间鲁棒性。
ActiveViewPose-200K 数据集：包含 20万图像-语言-相机运动三元组，通过 4k 高质量语义标注资产 + 500 多样场景 + 启发式算法 + GPT-4o 生成指令的半自动流程高效构建。
ActiveManip-Bench 基准：基于 NVIDIA Isaac Sim 构建，包含 G1 人形机器人、12 个语义主动操控任务、100 个物体、20 个场景，首个仿真主动操控评测基准。

Stage 1 - 语义主动感知对齐：使用 ActiveViewPose-200K 仅训练 Camera Adapter 和相机解码器，损失为预测相机运动与 GT 的 MSE：\(\mathcal{L}_{\text{stage1}} = \mathcal{L}_{\text{MSE}}(A_{\text{head}}, A_{\text{head}}^*)\)
Stage 2 - 主动操控微调：冻结 Camera Adapter，混合 ActiveViewPose-200K 和机器人操控数据训练解耦动作头：\(\mathcal{L}_{\text{stage2}} = \lambda_{\text{head}} \mathcal{L}_{\text{head}} + \lambda_{\text{other}} \mathcal{L}_{\text{other}}\)

方法	Val	Test1	Test2	Avg
Qwen2.5-VL-72B	63.9	65.1	58.0	62.3
Multi-SpatialMLLM	72.8	74.3	63.6	70.2
Gemini-2.5-Pro	73.3	76.5	68.2	72.7
SaPaVe (Stage 1)	85.5	89.1	78.3	84.3

仅 2B 参数即超越 Gemini-2.5-Pro 11.6%，说明语义主动感知不是通用大模型的涌现能力，需要专门数据训练。

方法	遮挡抓放	视野外抓放	遮挡关节操控	视野外关节操控	Avg
π₀	55	45	45	35	45.00
GR00T-N1	60	55	50	50	53.75
SaPaVe	90	85	85	80	85.00

消融项	遮挡抓放	视野外抓放	遮挡关节	视野外关节	Avg
w/o Stage 1	65	55	50	45	53.75
w/o Stage 2	75	60	70	60	66.25
w/o 解耦动作头	80	70	70	65	71.25
w/o Camera Adapter	80	75	70	70	73.75
w/o USKI	75	75	65	60	68.75
完整模型	90	85	85	80	85.00

每个组件都有显著贡献，Stage 1 对视野外任务影响最大（成功率减半），USKI 对基础操控鲁棒性至关重要。

解耦思想精妙：将 embodiment-agnostic 的相机运动与 embodiment-specific 的操控动作解耦，既降低数据需求又避免学习冲突
数据效率高：自底向上策略复用大规模易采集的相机运动数据，仅需少量机器人数据即可泛化
完整生态：同时提出数据集（ActiveViewPose-200K）和评测基准（ActiveManip-Bench），填补主动操控评估空白
实验说服力强：仿真+真实世界+泛化测试+全面消融，各组件贡献清晰
实际差距显著：在真实世界中大幅超越 π₀（+40%）和 GR00T N1（+31.25%），证明了主动感知的必要性

vs Next-Best-View 方法：NBV 方法非端到端且缺乏语义输入，SaPaVe 实现语义驱动的端到端主动感知
vs VQA-based 方法：VQA 方法（如 Look Further 等）在离散候选视角中选择，SaPaVe 在连续空间中直接预测相机运动
vs π₀ / GR00T N1：直接扩展这些 VLA 的动作空间包含相机运动效果差（统一空间冲突+缺乏感知先验），SaPaVe 通过解耦+两阶段策略大幅超越
vs Open-TeleVision 等遥操作方法：这些方法依赖昂贵的真实世界数据采集，SaPaVe 的相机运动训练数据可低成本大规模生成