VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving¶
会议: CVPR 2026
arXiv: 2602.20794
代码: https://github.com/WJ-CV/VGGDrive
领域: 多模态VLM
关键词: 自动驾驶, 3D几何感知, VLM, VGGT, 跨视图
一句话总结¶
提出VGGDrive框架,通过冻结的3D视觉基础模型VGGT为VLM注入跨视图几何感知能力,设计插拔式CVGE模块分层自适应地将3D特征注入VLM各层的2D视觉嵌入中,在五个自动驾驶基准上实现显著性能提升。
研究背景与动机¶
- 领域现状:VLM凭借丰富的世界知识和推理能力,为自动驾驶系统提供了强大的场景理解和决策支持,VLA(Vision-Language-Action)模型成为当前研究热点。
- 现有痛点:VLM天然缺乏对3D物理世界的跨视图几何建模能力,这直接限制了其在需要精细空间感知的自动驾驶任务中的表现(如Qwen2.5-VL在驾驶任务上表现平庸)。
- 核心矛盾:一些方法尝试通过构造QA数据来教VLM空间概念,但无法从根本上赋予模型几何先验;另一些方法在VLM上添加独立的动作解码器来预测轨迹,但割裂了场景理解与决策。
- 本文要解决什么? 如何有效地将成熟3D基础模型(VGGT)的跨视图几何建模能力注入VLM,弥补其固有缺陷。
- 切入角度:与其教VLM理解空间,不如直接将VGGT的3D几何特征深度融入VLM的2D视觉表示中,通过分层注入而非简单拼接/相加来实现深度赋能。
- 核心idea一句话:通过分层自适应注入机制将冻结VGGT的3D特征逐层融入VLM的2D视觉嵌入,建立真正的几何基础。
方法详解¶
整体框架¶
VGGDrive由三个核心组件组成:(1) 基座VLM(Qwen2.5-VL-7B),处理多视图图像和文本指令;(2) 分层自适应注入机制,解耦LLM结构,逐层提取并注入3D视觉嵌入;(3) 跨视图3D几何赋能器(CVGE),负责深度融合VGGT的3D特征与VLM的2D视觉表示。输入为多视图环视图像(nuScenes用6个相机,NAVSIM用3个前视角),输出为文本推理或轨迹预测。
关键设计¶
- 分层自适应注入机制(Hierarchical Adaptive Injection):
- 做什么:将冻结VGGT的3D几何信息分层注入VLM每一层decoder的2D视觉嵌入中
- 核心思路:首先用VGGT对多视图输入提取3D特征 \(V^{3d}\)(保留相机嵌入和注册嵌入),然后解耦LLM的decoder层结构,在每层用图像ID位置掩码 \(M_{id}^{img}\) 提取2D视觉嵌入 \(V_i^{2d}\),送入CVGE生成增强的3D嵌入 \(V_i^{3d}\),最后通过残差连接替换原始视觉嵌入:\(x_i = X_i + X_i'\)
-
设计动机:不同层的嵌入表示和对3D信息的敏感度不同,因此CVGE采用结构一致但参数独立的模块化设计,让每层自适应地学习其最相关的几何信息
-
跨视图3D几何赋能器(CVGE):
- 做什么:建立2D视觉嵌入与3D几何特征之间的可学习跨模态交互
- 核心思路:让2D视觉嵌入去query 3D表示,从中主动挖掘和整合关键的几何信息。具体通过cross-attention等机制让 \(V_i^{2d}\) 从 \(V^{3d}\) 中提取跨视图几何信息
-
设计动机:简单的特征拼接或相加(如VGGT-Dist和VGGT-Add)无法让VLM充分利用3D几何特征,需要深层交互机制建立真正的几何基础
-
插拔式设计:
- VGGT模型全程冻结,CVGE作为插拔式模块插入VLM
- 仅训练CVGE参数,保持VLM和VGGT预训练权重不变
训练策略¶
使用标准交叉熵损失,对轨迹规划任务额外提供ego状态和导航命令作为文本输入。
实验关键数据¶
主实验——NAVSIM轨迹规划¶
| 方法 | Base Model | PDMS↑ | NC↑ | DAC↑ | EP↑ |
|---|---|---|---|---|---|
| Baseline (Qwen2.5-VL) | 7B | 86.04 | 97.83 | 94.08 | 81.00 |
| VGGT-Dist | 7B | 86.68 | 97.84 | 94.81 | 81.30 |
| VGGT-Add | 7B | 86.10 | 97.81 | 94.07 | 80.84 |
| VGGDrive | 7B | 88.76 | 98.55 | 96.30 | 82.92 |
| DiffusionDrive (E2E SOTA) | - | 88.10 | 98.20 | 96.20 | 82.20 |
主实验——NuInstruct跨视图风险感知¶
| 方法 | MAE↓ | Accuracy↑ | MAP↑ | BLEU↑ |
|---|---|---|---|---|
| Baseline | 4.35 | 47.71 | 6.15 | 75.75 |
| VGGT-Dist | 3.73 | 56.21 | 28.51 | 79.23 |
| VGGDrive | 3.08 | 56.37 | 37.49 | 81.13 |
消融实验——DriveLM¶
| 方法 | Accuracy↑ | Match↑ | Average↑ |
|---|---|---|---|
| Baseline | 64.35 | 34.54 | 54.59 |
| VGGDrive | 77.50 | 49.77 | 61.26 |
关键发现¶
- VGGDrive在五个基准上全面超越baseline和简单集成方案,NAVSIM上PDMS达到88.76,超越大部分使用LiDAR的端到端方法
- 跨视图风险感知指标MAP提升最大(6.15→37.49),表明3D几何特征对空间感知帮助最大
- 简单的VGGT-Dist和VGGT-Add集成方案改进有限(甚至VGGT-Add在某些指标上降低),验证了深层融合的必要性
亮点与洞察¶
- 3D基础模型赋能VLM的新范式:不同于用数据教VLM空间概念或加独立解码头,本文开创性地利用冻结3D基础模型直接赋能VLM,思路新颖且通用性强
- 分层自适应注入设计:认识到VLM各层对3D信息的需求不同,每层用独立参数的CVGE模块自适应提取信息,比全局统一注入更优
- 跨视图MAP指标飙升:6.15→37.49的提升说明3D几何grounding从根本上改变了VLM的空间感知能力
局限性 / 可改进方向¶
- 目前仅在Qwen2.5-VL-7B上验证,未测试更大规模VLM或其他VLM家族的泛化性
- VGGT全程冻结,未探索联合微调或渐进式解冻策略
- 轨迹预测直接用VLM文本输出,精度受限于token化的分辨率,未来可结合专用轨迹解码头
- CVGE增加了额外参数和计算开销,对实际部署的延迟影响需要评估
相关工作与启发¶
- vs VGGT-Dist/VGGT-Add:简单的蒸馏或相加集成方案只在最终层或浅层融合3D特征,VGGDrive通过分层深度注入大幅超越
- vs CarLLaVA/AdaThinkDrive等VLA方法:其他VLA方法依赖QA数据或独立解码器,VGGDrive通过3D模型赋能从根本上提升空间感知
评分¶
- 新颖性: ⭐⭐⭐⭐ 3D基础模型赋能VLM用于自动驾驶是新颖的范式
- 实验充分度: ⭐⭐⭐⭐⭐ 五个基准全面评估,消融充分
- 写作质量: ⭐⭐⭐⭐ 动机清晰,图表丰富
- 价值: ⭐⭐⭐⭐ 为3D+VLM驾驶系统指明了有效方向