SaPaVe: Towards Active Perception and Manipulation in VLA Models for Robotics¶

会议: CVPR 2026
arXiv: 2603.12193
代码: lmzpai.github.io/SaPaVe
领域: 机器人/具身智能
关键词: 主动感知, VLA, 人形机器人, 解耦动作空间, 语义相机控制

一句话总结¶

提出SaPaVe端到端主动操作框架，通过解耦相机动作和操作动作的自底向上训练策略（先学语义主动感知再学主动视角执行），配合200K相机控制数据集和3D空间知识注入，在真实世界任务中超越π0和GR00T N1高达31-40%成功率。

有效的主动操作需要两个互补能力：语义主动感知（根据任务语义调整视角，如移动头部看到被遮挡的碗）和主动视角执行（在动态视角下执行操作，如快速看一眼后立即抓取）。现有VLA模型训练在固定近最优视角下，对视角变化敏感；直接扩展动作空间加入相机运动会破坏预训练先验且需大量稀缺数据。

如何让VLA模型同时具备语义主动感知和主动视角执行能力，且在数据高效的条件下实现——不需要大量昂贵的同时包含相机运动和操作动作的演示数据？

基于Eagle-2 VLM + Diffusion Transformer动作头。关键insight：相机运动是与具身形态无关的、更容易学习的信号。自底向上训练：Stage 1只学相机控制（200K大规模数据），Stage 2混合数据联合优化相机和操作。

解耦动作头+相机适配器: 两个独立的MLP解码器——相机动作解码器(2-DoF: pitch/yaw)和操作动作解码器(26-DoF: 双臂+灵巧手)。相机适配器用LoRA在VLM上学习，仅<2%参数可训练，保持VLM语义能力不被破坏。
通用空间知识注入(Universal Spatial Knowledge Injection): 用MapAnything编码器处理任意组合的3D几何信息（深度图、相机内外参），输出空间token通过element-wise加法与VLM token融合，注入Diffusion Transformer的交叉注意力层。使模型具备视角不变的3D空间理解。
ActiveViewPose-200K数据集+ActiveManip-Bench基准: 200K图像-语言-相机运动三元组数据集，分3类prompt（视觉居中/空间指令/常识推理）。活性操作基准包含12任务、100物体、20场景（含遮挡/视野外/无遮挡三类视觉复杂度），基于Isaac Sim+Unitree G1人形机器人。

Stage 1: 仅训练相机适配器+相机解码器，MSE损失监督相机运动
Stage 2: 冻结相机适配器，混合训练全部动作头，\(\mathcal{L} = \lambda_{head}\mathcal{L}_{head} + \lambda_{other}\mathcal{L}_{other}\)（\(\lambda_{other}=10\lambda_{head}\)）

语义主动感知（ActiveViewPose测试集）：

方法	Test1	Test2	平均
Gemini-2.5-Pro	76.5	68.2	72.7
Qwen2.5-VL-72B	65.1	58.0	62.3
SaPaVe (2B)	89.1	78.3	84.3

比Gemini-2.5-Pro高+11.6%（仅2B参数 vs 万亿级）。

真实世界主动操作（成功率%）：

方法	遮挡P&P	视野外P&P	遮挡关节	视野外关节	平均
π0	55	45	45	35	45.00
GR00T-N1	60	55	50	50	53.75
SaPaVe	90	85	85	80	85.00

超越π0 +40%，GR00T-N1 +31.25%。

仿真ActiveManip-Bench: 固定相机36.17% → 主动相机(SaPaVe) 74.83%（+38.7%）。