VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving¶

会议: CVPR 2026
arXiv: 2602.20794
代码: https://github.com/WJ-CV/VGGDrive
领域: 多模态VLM
关键词: 自动驾驶, 3D几何感知, VLM, VGGT, 跨视图

一句话总结¶

提出VGGDrive框架，通过冻结的3D视觉基础模型VGGT为VLM注入跨视图几何感知能力，设计插拔式CVGE模块分层自适应地将3D特征注入VLM各层的2D视觉嵌入中，在五个自动驾驶基准上实现显著性能提升。

研究背景与动机¶

领域现状：VLM凭借丰富的世界知识和推理能力，为自动驾驶系统提供了强大的场景理解和决策支持，VLA（Vision-Language-Action）模型成为当前研究热点。
现有痛点：VLM天然缺乏对3D物理世界的跨视图几何建模能力，这直接限制了其在需要精细空间感知的自动驾驶任务中的表现（如Qwen2.5-VL在驾驶任务上表现平庸）。
核心矛盾：一些方法尝试通过构造QA数据来教VLM空间概念，但无法从根本上赋予模型几何先验；另一些方法在VLM上添加独立的动作解码器来预测轨迹，但割裂了场景理解与决策。
本文要解决什么？ 如何有效地将成熟3D基础模型（VGGT）的跨视图几何建模能力注入VLM，弥补其固有缺陷。
切入角度：与其教VLM理解空间，不如直接将VGGT的3D几何特征深度融入VLM的2D视觉表示中，通过分层注入而非简单拼接/相加来实现深度赋能。
核心idea一句话：通过分层自适应注入机制将冻结VGGT的3D特征逐层融入VLM的2D视觉嵌入，建立真正的几何基础。

方法详解¶

整体框架¶

VGGDrive由三个核心组件组成：(1) 基座VLM（Qwen2.5-VL-7B），处理多视图图像和文本指令；(2) 分层自适应注入机制，解耦LLM结构，逐层提取并注入3D视觉嵌入；(3) 跨视图3D几何赋能器（CVGE），负责深度融合VGGT的3D特征与VLM的2D视觉表示。输入为多视图环视图像（nuScenes用6个相机，NAVSIM用3个前视角），输出为文本推理或轨迹预测。

关键设计¶

分层自适应注入机制（Hierarchical Adaptive Injection）:
做什么：将冻结VGGT的3D几何信息分层注入VLM每一层decoder的2D视觉嵌入中
核心思路：首先用VGGT对多视图输入提取3D特征 \(V^{3d}\)（保留相机嵌入和注册嵌入），然后解耦LLM的decoder层结构，在每层用图像ID位置掩码 \(M_{id}^{img}\) 提取2D视觉嵌入 \(V_i^{2d}\)，送入CVGE生成增强的3D嵌入 \(V_i^{3d}\)，最后通过残差连接替换原始视觉嵌入：\(x_i = X_i + X_i'\)
设计动机：不同层的嵌入表示和对3D信息的敏感度不同，因此CVGE采用结构一致但参数独立的模块化设计，让每层自适应地学习其最相关的几何信息
跨视图3D几何赋能器（CVGE）:
做什么：建立2D视觉嵌入与3D几何特征之间的可学习跨模态交互
核心思路：让2D视觉嵌入去query 3D表示，从中主动挖掘和整合关键的几何信息。具体通过cross-attention等机制让 \(V_i^{2d}\) 从 \(V^{3d}\) 中提取跨视图几何信息
设计动机：简单的特征拼接或相加（如VGGT-Dist和VGGT-Add）无法让VLM充分利用3D几何特征，需要深层交互机制建立真正的几何基础
插拔式设计:
VGGT模型全程冻结，CVGE作为插拔式模块插入VLM
仅训练CVGE参数，保持VLM和VGGT预训练权重不变

训练策略¶

使用标准交叉熵损失，对轨迹规划任务额外提供ego状态和导航命令作为文本输入。

实验关键数据¶

主实验——NAVSIM轨迹规划¶

方法	Base Model	PDMS↑	NC↑	DAC↑	EP↑
Baseline (Qwen2.5-VL)	7B	86.04	97.83	94.08	81.00
VGGT-Dist	7B	86.68	97.84	94.81	81.30
VGGT-Add	7B	86.10	97.81	94.07	80.84
VGGDrive	7B	88.76	98.55	96.30	82.92
DiffusionDrive (E2E SOTA)	-	88.10	98.20	96.20	82.20

主实验——NuInstruct跨视图风险感知¶

方法	MAE↓	Accuracy↑	MAP↑	BLEU↑
Baseline	4.35	47.71	6.15	75.75
VGGT-Dist	3.73	56.21	28.51	79.23
VGGDrive	3.08	56.37	37.49	81.13

消融实验——DriveLM¶

方法	Accuracy↑	Match↑	Average↑
Baseline	64.35	34.54	54.59
VGGDrive	77.50	49.77	61.26

关键发现¶

VGGDrive在五个基准上全面超越baseline和简单集成方案，NAVSIM上PDMS达到88.76，超越大部分使用LiDAR的端到端方法
跨视图风险感知指标MAP提升最大（6.15→37.49），表明3D几何特征对空间感知帮助最大
简单的VGGT-Dist和VGGT-Add集成方案改进有限（甚至VGGT-Add在某些指标上降低），验证了深层融合的必要性

亮点与洞察¶

3D基础模型赋能VLM的新范式：不同于用数据教VLM空间概念或加独立解码头，本文开创性地利用冻结3D基础模型直接赋能VLM，思路新颖且通用性强
分层自适应注入设计：认识到VLM各层对3D信息的需求不同，每层用独立参数的CVGE模块自适应提取信息，比全局统一注入更优
跨视图MAP指标飙升：6.15→37.49的提升说明3D几何grounding从根本上改变了VLM的空间感知能力

局限性 / 可改进方向¶

目前仅在Qwen2.5-VL-7B上验证，未测试更大规模VLM或其他VLM家族的泛化性
VGGT全程冻结，未探索联合微调或渐进式解冻策略
轨迹预测直接用VLM文本输出，精度受限于token化的分辨率，未来可结合专用轨迹解码头
CVGE增加了额外参数和计算开销，对实际部署的延迟影响需要评估

评分¶

新颖性: ⭐⭐⭐⭐ 3D基础模型赋能VLM用于自动驾驶是新颖的范式
实验充分度: ⭐⭐⭐⭐⭐ 五个基准全面评估，消融充分
写作质量: ⭐⭐⭐⭐ 动机清晰，图表丰富
价值: ⭐⭐⭐⭐ 为3D+VLM驾驶系统指明了有效方向