Navigation Instruction Generation with BEV Perception and Large Language Models¶
会议: ECCV 2024
arXiv: 2407.15087
代码: 有
领域: 自动驾驶 / 具身智能
关键词: 导航指令生成, 鸟瞰图感知, 多模态大语言模型, prompt tuning, 迭代优化
一句话总结¶
提出 BEVInstructor,将鸟瞰图 (BEV) 特征融合到多模态大语言模型中,通过 Perspective-BEV 融合编码器、参数高效的 Prompt Tuning 以及实例引导的迭代优化策略,在室内外导航指令生成任务上取得 SOTA。
研究背景与动机¶
导航指令生成要求具身智能体根据导航轨迹用自然语言描述路线,在机器人、人机交互等领域有重要价值,例如辅助视障人士导航、自主搜救报告等。
现有方法的局限性:
缺乏 3D 感知:现有方法 (如 CCC-speaker、Lana) 直接将 2D 透视观测映射为路线描述,忽略了 3D 环境的几何信息和物体语义,容易产生模糊的路径描述。
MLLM 的领域差距:多模态大语言模型 (GPT-4V、InstructBLIP 等) 主要在第三人称的独立图像-文本对上预训练,难以直接理解第一人称视角序列的空间上下文。零样本方式生成导航指令效果不佳。
缺少逐步优化:认知科学研究表明,人类描述路线时会先根据地标构思草稿再逐步完善,但现有方法缺乏这种迭代优化机制。
核心动机:引入 BEV 感知来编码 3D 空间语义和几何结构,结合 MLLM 的强大语言能力,并模拟人类"先标志物草稿 → 再完善描述"的过程来提升指令质量。
方法详解¶
整体框架¶
BEVInstructor 基于 LLaMA-7B,包含三大模块:(1) Perspective-BEV Visual Encoder 编码 3D 场景信息;(2) Perspective-BEV Prompt Tuning 实现参数高效的跨模态对齐;(3) 实例引导的迭代优化 渐进式提升指令质量。
任务定义:给定导航路径的观测序列 \(\mathcal{O} = \{O_t\}_{t=1}^T\) 和动作序列 \(\mathcal{A} = \{a_t\}_{t=1}^T\),自回归生成指令 \(\mathcal{X} = \{x_l\}_{l=1}^L\):
关键设计¶
-
Perspective-BEV Visual Encoder:编码 3D 环境语义和几何信息
- 透视嵌入:将多视角图像特征 \(F_{t,k}\) 与方向角编码 \(\delta_{t,k}\)、时间步嵌入组合为 \(p_{t,k} = \mathcal{E}^p(F_{t,k}) + \mathcal{E}^\delta(\delta_{t,k}) + E_t + E_o\)
- BEV 嵌入:通过 BEV 编码器 (6 层可变形注意力) 将多视角特征聚合到 \(15 \times 15\) 的 BEV 网格,使用深度一致性权重 \(w_{k,n}^c\) 区分不同深度的参考点投影。BEV 编码器在 3D 检测任务监督下预训练后冻结
- Perspective-BEV 融合:用 Transformer 层融合 BEV 嵌入 \(B_t\) 和透视嵌入 \([P_t, a_t]\),再通过轻量 Transformer \(\mathcal{Q}\) 将 \(H_b W_b\) 个 token 压缩为 \(N_q = 10\) 个固定长度 token,避免输入 MLLM 时 token 过长
- 设计动机:2D 透视特征保留丰富视觉线索但缺乏 3D 几何,BEV 特征编码空间结构但缺乏纹理细节,两者互补融合实现全面场景理解
-
Perspective-BEV Prompt Tuning:参数高效地利用 MLLM 的跨模态能力
- 在视觉嵌入 \(O_{1:T}\) 中插入 \(N_p\) 个可学习嵌入作为 Perspective-BEV Prompt:\(O' = O_{1:T} \oplus E_v\)
- 在 LLaMA 最后 \(N_a = 31\) 层引入 zero-initialized attention 和可学习 scale vector
- 设计动机:直接微调 MLLM 代价高且可能损害文本生成能力。通过仅更新 7.2% 的参数实现参数高效的场景-指令对齐
-
实例引导的迭代优化:模拟人类描述路线的认知过程
- 第一阶段:BEVInstructor 先识别关键实例,生成地标 token \(\mathcal{X}^I\)
- 第二阶段:基于地标草稿条件下生成完整指令:\(\mathcal{O} \times \mathcal{A} \times \mathcal{X}^I \rightarrow \mathcal{X}\)
- 设计动机:认知科学表明关键地标在人类路线描述中起核心作用,分阶段生成可逐步丰富指令中的物体语义
损失函数 / 训练策略¶
- BEV 编码器预训练:使用 \(\ell_1\) loss + 交叉熵 loss 在 3D 检测任务上监督训练,然后冻结
- 指令生成训练:自回归交叉熵损失,结合地标生成和指令生成的联合优化 (Eq. 11)
- 使用 AdamW 优化器,学习率 \(1e^{-4}\),batch size 8,20K 迭代
- 冻结 LLaMA 大部分参数 (6.68B),仅微调 <500M 参数
实验关键数据¶
主实验¶
在三个数据集上与 SOTA 比较:
| 数据集 | 指标 | BEVInstructor | 之前 SOTA (Lana) | 提升 |
|---|---|---|---|---|
| R2R val seen | SPICE | 0.220 | 0.201 | +1.9% |
| R2R val seen | CIDEr | 0.549 | 0.503 | +4.6% |
| R2R val unseen | SPICE | 0.208 | 0.194 | +1.4% |
| R2R val unseen | CIDEr | 0.449 | 0.419 | +3.0% |
| REVERIE val seen | CIDEr | 0.745 | 0.619 | +12.6% |
| REVERIE val unseen | CIDEr | 0.489 | 0.406 | +8.3% |
| UrbanWalk test | SPICE | 0.679 | 0.566 | +11.3% |
| UrbanWalk test | Rouge | 0.786 | 0.655 | +13.1% |
消融实验¶
R2R val unseen 上的组件消融:
| 配置 | SPICE | CIDEr | 说明 |
|---|---|---|---|
| 仅 Perspective | 0.154 | 0.209 | 基线 |
| 仅 BEV | 0.172 | 0.281 | BEV 单独已优于 Perspective |
| Perspective + BEV (concat) | 0.180 | 0.342 | 简单拼接两种特征 |
| + Fusion 模块 | 0.190 | 0.373 | Transformer 融合优于简单拼接 |
| + Iterative Refinement | 0.192 | 0.419 | 迭代优化带来 CIDEr +7.7% |
| 完整模型 | 0.208 | 0.449 | 所有模块互补叠加 |
融合方式对比 (R2R val unseen):
| 融合方式 | SPICE | CIDEr | 说明 |
|---|---|---|---|
| Addition | 0.185 | 0.366 | 简单相加 |
| Concat | 0.184 | 0.310 | 拼接 |
| Ours (Transformer) | 0.208 | 0.449 | Transformer 融合最优 |
关键发现¶
- BEV 特征单独已优于 Perspective 特征 (CIDEr 0.281 vs 0.209),说明 3D 几何信息对指令生成至关重要
- 实例引导的迭代优化在所有设置下一致提升性能,一步优化效果最佳,进一步增加步数收益有限
- GPT-4V 零样本性能远低于微调方法 (SPICE 0.098 vs 0.208),说明通用 MLLM 无法直接胜任导航指令生成
亮点与洞察¶
- 首次将 BEV 感知引入导航指令生成,实现 3D 空间理解与语言生成的有效桥接
- 参数高效设计 (仅 7.2% 参数可训练) 兼顾了性能和效率
- 在室内 (R2R, REVERIE) 和室外 (UrbanWalk) 场景均取得显著提升,验证了方法的通用性
- 生成的指令可实际用于指导导航 agent (HAMT/DUET),验证了指令的实际可用性
局限与展望¶
- BEV 编码器需要 3D 检测任务的预训练数据,对新场景的适应性需要验证
- 当前仅在模拟器数据集上验证,真实物理环境的表现有待探索
- 可以探索将 BEV 感知与更强的 MLLM (如 LLaMA-2/3) 结合
- 迭代优化目前采用固定步数,可以考虑自适应停止策略
相关工作与启发¶
- 与 Lana (CVPR2023) 相比,BEVInstructor 引入 3D 几何先验,提升了场景理解的深度
- BEV 编码器的设计借鉴了自动驾驶领域的 BEVFormer,将其迁移到室内导航场景是新颖的应用
- 实例引导的迭代优化思想可以推广到其他需要分步推理的 vision-language 任务
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将 BEV 感知与 MLLM 结合用于导航指令生成,设计合理
- 实验充分度: ⭐⭐⭐⭐⭐ — 三个数据集 + 详细消融 + 下游 agent 评估,非常充分
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式推导完整
- 价值: ⭐⭐⭐⭐ — 为具身智能的语言交互提供了新的技术路线
相关论文¶
- [ECCV 2024] H-V2X: A Large Scale Highway Dataset for BEV Perception
- [ECCV 2024] Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation
- [ECCV 2024] Adaptive Human Trajectory Prediction via Latent Corridors
- [ECCV 2024] Neural Volumetric World Models for Autonomous Driving
- [ECCV 2024] Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention