VGGT-DP: Generalizable Robot Control via Vision Foundation Models¶

会议: AAAI 2026
arXiv: 2509.18778
代码: 无
领域: 3D视觉
关键词: 视觉运动策略, 扩散策略, VGGT, 本体感知引导, 机器人操作

一句话总结¶

提出 VGGT-DP，一个受生物视觉系统启发的视觉运动策略框架，将预训练的 3D 感知基础模型 VGGT 作为视觉编码器并与扩散策略（Diffusion Policy）结合，通过帧级 Token 复用机制、随机 Token 裁剪和本体感知引导视觉学习三个关键设计，在 MetaWorld 高精度操作任务上显著超越 DP 和 DP3 基线。

研究背景与动机¶

从生物视觉到机器人感知¶

视觉运动策略（visuomotor policy）是机器人操作的核心。当前主流的研究范式有两类：

Vision-Action (VA) 范式：小型视觉编码器 + 大型策略头，如 Diffusion Policy。

Vision-Language-Action (VLA) 范式：利用大规模视觉-语言模型提供语言先验，增强泛化。

然而，作者提出了一个深刻的生物学洞察：许多非语言生物体也展现出超群的操作能力。昆虫、果蝇甚至单细胞生物在没有任何语言/符号推理的情况下，也能出色地感知、导航和操作环境。生物学研究表明，动物大量的神经资源专门用于视觉处理。

因此，核心问题不在于语言先验，而在于视觉表示的容量和质量。当前机器人系统中使用的视觉编码器往往过于简单，难以捕捉复杂的空间和几何关系。

为什么选择 VGGT¶

VGGT（Visual Geometry Grounded Transformer）是在大规模 3D 重建任务上预训练的视觉基础模型，能统一预测相机位姿、稠密深度图、3D 点云和视觉特征。与 CLIP/DINOv2 等关注语义的模型不同，VGGT 提供了几何感知的空间表示，更适合需要精确空间推理的操作任务。

方法详解¶

整体框架¶

VGGT-DP 由三个核心组件构成： 1. VGGT 编码器 + Token 裁剪：提取几何感知的视觉特征 2. 帧级 Token 复用机制（FTR）：减少推理延迟 3. 本体感知引导的扩散策略：融合视觉和本体感知信号进行动作预测

关键设计¶

1. VGGT 作为特征投影器¶

不使用 VGGT 的低层视觉输出（深度图、点云），而是利用其聚合器（aggregator）输出的 token，这些 token 是紧凑的、语义丰富的 3D 场景表示。

给定 $B \cdot T$ 帧、$V$ 个视角的输入图像，VGGT 输出视觉 token： $$\mathcal{T}_{vggt} = \text{VGGT}_{agg}(\mathcal{I}) \in \mathbb{R}^{B \cdot T \times V \times (N_p+1) \times D}$$

接着通过 Transformer Encoder 进一步处理，再经过平均池化和 MLP 投影得到条件嵌入 $\mathcal{C} \in \mathbb{R}^{B \cdot T \times d_c}$，作为扩散策略的条件输入。

设计动机：VGGT 聚合器已经融合了多视角的空间和外观线索，产生了具有全局上下文的几何感知 token，比原始图像特征更强。

2. 帧级 Token 复用机制（Frame-Wise Token Reuse, FTR）¶

现有方法在每个推理步骤中对所有观测帧重新计算视觉嵌入，即使帧在时间窗口间是重叠的。对于大模型如 VGGT，计算开销巨大。

FTR 的核心思路：对重叠帧复用已计算的 token。仅对最新帧计算新的 VGGT 特征，旧帧的 token 缓存在 CPU 上： $$\mathcal{T}_{vggt}^{(t)} = \text{Concat}(\mathcal{T}_{cache}^{(t-1)}, \text{VGGT}_{agg}(\mathcal{I}_t))$$

设计动机：在机器人控制的滑动窗口中，大部分观测帧在相邻时间步之间是共享的。FTR 将推理开销从 $O(T)$ 降为 $O(1)$。

3. 随机 Token 裁剪（Random Token Pruning）¶

在将 VGGT token 输入 Transformer Encoder 之前，随机丢弃一定比例 $r_{prune}$ 的 patch token。

设计动机：引入 token 级随机性防止过拟合、减少计算量加速推理，同时鼓励模型学习对部分观测丢失不变的表示。

4. 本体感知引导的视觉学习¶

设计一个辅助解码器 $D$，从视觉特征中预测机器人的本体感知状态（关节角度 + 末端执行器位置）： $$\hat{p}_t = D(f_t), \quad \mathcal{L}_{proprio} = \mathbb{E}_t[\|p_t - \hat{p}_t\|^2]$$

设计动机：迫使视觉编码器学习与操作相关的空间信息特征，改善闭环反馈控制质量。

训练策略¶

架构：U-Net-1D 扩散模型，使用 FiLM 条件注入
调度器：DDIM，100 训练时间步，10 推理去噪步
预测窗口：16 步，观测窗口：2 步
优化器：AdamW，lr=$1 \times 10^{-4}$，权重衰减 $1 \times 10^{-6}$
训练 3000 epochs，batch size 128，EMA 衰减 0.9999

实验关键数据¶

主实验¶

MetaWorld 10 个挑选任务的成功率（%）：

任务	DP	DP3	VGGT-DP	类型
Disassemble	43±7	69±4	55±2.5	简单
Peg Unplug Side	74±3	75±5	63±6	简单
Pick out of Hole	0±0	14±9	55±6	复杂空间
Shelf Place	11±3	17±10	10±0	放置
Reach	18±2	24±1	42±8	复杂空间
Soccer	14±4	18±3	30±7	复杂空间
Sweep Into	10±4	15±5	44±4	复杂空间
Hand Insert	10±4	15±5	19±4	复杂空间
Pick Place	0±0	12±4	0±0	放置
Stick Pull	11±2	27±8	48±5	复杂空间
平均	19.1	28.6	36.6	—

VGGT-DP 平均成功率 36.6%，比 DP 高 17.5 个百分点，比 DP3 高 8.0 个百分点。

消融实验¶

视角扰动鲁棒性测试（Stick Pull 任务）：

扰动角度 δ	成功率	说明
0°	39%	正常视角
5°	5%	轻微扰动即断崖式下降
10°	0%	完全失败
15°	0%	完全失败

FTR 机制效果：FTR 在大 batch 和长时序窗口下显著降低推理延迟，对部署大型视觉模型到实时系统有重要价值。

关键发现¶

VGGT-DP 在复杂空间推理任务上表现突出：Pick out of Hole（0→55%）、Sweep Into（10→44%）、Stick Pull（11→48%）
在简单任务上无优势：小型编码器即可胜任
放置任务失败：目标物体小/细长/部分遮挡时无法精确定位
视角鲁棒性极差：仅 5° 扰动即导致成功率断崖式下降（39%→5%），严重过拟合训练时的相机位姿

亮点与洞察¶

生物学启发的深刻洞察：绕过语言先验、回归视觉感知本质的思路很有说服力
FTR 机制简单而有效：利用时序冗余进行 token 复用，对部署大型视觉模型到实时机器人系统有参考价值
本体感知引导的视觉学习：用机器人内部状态作为辅助监督信号来引导视觉特征学习，在 embodied AI 中有前景

局限与展望¶

视角鲁棒性严重不足：最大的短板。5° 扰动即失败，需要引入等变编码器或视角域随机化
仅在仿真环境（MetaWorld）中验证：缺少真实世界机器人实验
VGGT 计算开销大：大参数量限制实时控制的部署
放置任务失败：对小物体和精细操作支持不足

评分¶

新颖性: ⭐⭐⭐⭐ — 将 3D 重建预训练模型引入机器人控制有启发性
实验充分度: ⭐⭐⭐ — 仅 MetaWorld 仿真环境，缺少真实世界实验
写作质量: ⭐⭐⭐⭐ — 生物学动机论述有说服力
实用价值: ⭐⭐⭐ — 视角鲁棒性差和高计算开销限制实际应用