跳转至

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

会议: ECCV 2024
arXiv: 2407.12366
代码: GitHub (有)
领域: 多模态VLM
关键词: 视觉语言导航, 大语言模型, 导航推理, 拓扑图策略, InstructBLIP

一句话总结

NavGPT-2通过将冻结LLM的隐层表征作为视觉-语言特征输入拓扑图导航策略网络,在保留LLM可解释性导航推理能力的同时,消除了基于LM的智能体与VLN专用模型之间的性能差距,并展现出优异的数据效率。

研究背景与动机

视觉语言导航(VLN)要求智能体在真实3D环境中按自然语言指令导航,是具身智能的核心任务。近年来大语言模型(LLM)被引入VLN,主要有两条路线:

零样本方法(如NavGPT、MapGPT):用图像描述将视觉内容翻译成文本,再通过复杂prompt工程让GPT-4推理导航动作。但这存在严重的信息损失、复杂度高、空间结构理解不足等问题,与专用模型相比有约40%的成功率差距。

微调方法(如LangNav、NaviLLM):直接微调LLaMA等模型做VLN,但训练数据不足、预训练目标与VLN目标不匹配,且微调后丢失了LLM的通用语言能力,变成"黑盒"。

核心矛盾:现有方法要么牺牲性能换取可解释性(零样本),要么牺牲可解释性换取性能(微调),无法兼得。

本文切入点:NavGPT-2在这两个极端之间找到平衡——冻结LLM,利用其隐层特征作为视觉-语言表征输入导航策略网络,同时保留LLM的语言生成能力以提供可解释的导航推理。

方法详解

整体框架

NavGPT-2由两大组件构成:(1) 大型视觉语言模型(VLM),基于InstructBLIP架构;(2) 基于拓扑图的导航策略网络。VLM负责处理视觉观测和指令、生成导航推理,策略网络负责动作预测。训练分两阶段进行,VLM和LLM全程冻结。

关键设计

  1. 视觉对齐与多视角感知:

    • 功能:将环境中多个候选视角的RGB图像编码为固定长度的视觉token
    • 核心思路:采用Q-former(来自BLIP-2)设计,对每个候选视角图像使用冻结的ViT-g/14提取视觉特征,然后通过32个可学习query与视觉特征交叉注意力,并与指令文本先进行self-attention得到指令感知的image query,最后经线性投影输入LLM
    • 设计动机:Q-former能有效控制多视角图像的token长度,避免超长上下文问题
  2. 导航系统Prompt与推理数据生成:

    • 功能:构建结构化的导航prompt,注入方向信息(如"Candidate i, facing angle, {direction}"),并使用GPT-4V从R2R训练集生成10K条单步导航推理数据
    • 核心思路:使用特殊token(<IMG>, </IMG>, <INST>, </INST>)组织图像和指令,对Q-former和投影层进行instruction-tuning
    • 设计动机:让冻结的LLM能够输出环境描述、进度判断和下一步推理
  3. VLM隐层作为视觉-语言表征:

    • 功能:提取LLM最后一层encoder/decoder的hidden representation作为下游策略网络的输入特征
    • 核心思路:对于encoder-decoder模型(FlanT5),从encoder最后层取image tokens和instruction tokens的表征;对于decoder-only模型(Vicuna),从decoder最后层取;每个视角的32个image tokens通过MLP合并为单一token
    • 设计动机:LLM隐层已经完成了视觉和语言的深度融合,是高质量的跨模态表征
  4. 基于拓扑图的导航策略网络:

    • 功能:维护动态拓扑图,实现全局动作预测和历史回溯
    • 核心思路:
      • 节点嵌入:已访问节点用所有候选视角特征的平均池化表示,未探索节点用相邻已访问节点的部分视角表示。每个视角特征 = VLM视觉特征 + 方向嵌入 + 步骤嵌入,通过多层Transformer建模节点间空间关系
      • 跨模态编码:节点嵌入先与LLM编码的指令交叉注意力,再通过图感知自注意力(GASA),GASA在标准自注意力基础上加入了基于节点间L2距离的空间亲和矩阵
      • 全局动作预测:用两层FFN对GASA输出计算动作分数,选择最高分节点,沿图中最短路径移动
    • 设计动机:拓扑图能有效建模长程导航历史和空间结构,支持错误路径的回溯

损失函数 / 训练策略

采用两阶段训练: - 阶段一:冻结LLM和视觉编码器,仅微调Q-former和投影层,在GPT-4V生成的导航推理数据上进行instruction tuning(200K步,batch=8) - 阶段二:冻结整个VLM,仅微调导航策略网络。使用Behaviour Cloning + DAgger联合损失:\(\mathcal{L} = \lambda \mathcal{L}_{BC} + \mathcal{L}_{DAG}\),其中BC在ground truth轨迹上训练,DAgger在智能体自身采样的轨迹上用伪标签训练

所有实验在单张A100 GPU上完成。

实验关键数据

主实验 (R2R数据集)

方法 Val Unseen SR↑ Val Unseen SPL↑ Test SR↑ Test SPL↑ 是否冻结LLM
NavGPT (GPT-4, 零样本) 34 29 - -
NavCoT (LLaMA2-7B) 40 37 - -
NaviLLM (Vicuna-7B) 67 59 68 60
DUET (专用模型) 72 60 69 59 -
NavGPT-2 (FlanT5-XL, 1.5B) 68 56 71 60
NavGPT-2 (FlanT5-XXL, 5B) 74 61 72 60

消融实验

配置 Val Seen SR Val Unseen SR 说明
NavGPT-2 完整模型 69.44 67.52 基线
去掉策略网络 25.27 21.46 冻结LLM无法直接做动作决策
去掉推理预训练Q-former 67.58 66.75 推理预训练带来轻微提升

数据效率实验

方法 训练数据量 Val Unseen SR
DUET 100% R2R 63.90
NavGPT-2 50% R2R 63.30
NavGPT-2 100% R2R 67.52

关键发现

  • NavGPT-2用50%数据即可达到DUET用100%数据的性能,展现了LLM隐层表征的数据效率优势
  • FlanT5(encoder-decoder)远优于Vicuna(decoder-only),因为full attention更适合VLN的多选择动作预测
  • 零样本跨数据集泛化方面,NavGPT-2在RxR上比DUET高3.67% SR,在HM3D上高21.6% SR
  • 人类评估显示NavGPT-2的推理质量可接受(准确性1.66/3,信息量1.93/3)

亮点与洞察

  • 冻结LLM + 策略网络的设计巧妙:既利用了LLM强大的跨模态表征能力,又通过专用策略网络弥补了LLM在空间理解上的不足
  • VLM隐层表征的多用途性:同一表征既用于语言解码(导航推理),又用于动作解码(策略网络),实现了统一的特征空间
  • 数据效率的定量证明:50%训练数据 ≈ 专用模型100%数据的性能
  • 展示了LLM在VLN中作为"特征提取器"而非"决策器"的可行路线

局限与展望

  • LLM始终冻结导致无法从导航任务中进一步学习空间推理能力
  • 当前推理生成质量(1.66/3)仍有明显提升空间
  • 依赖GPT-4V生成训练数据,成本较高
  • Vicuna等decoder-only模型表现不佳,需要探索更好的适配方式

相关工作与启发

  • NavGPT (2023)首次将GPT-4用于VLN零样本导航,揭示了LLM的导航推理潜力,但性能远低于专用模型
  • DUET (2022)提出的拓扑图导航策略是VLN的关键设计,NavGPT-2直接复用了其全局分支
  • InstructBLIP的Q-former架构为多图像输入提供了灵活的token长度控制

评分

  • 新颖性: ⭐⭐⭐⭐ 冻结LLM+隐层表征+策略网络的组合是该领域的新做法,理念清晰
  • 实验充分度: ⭐⭐⭐⭐⭐ 主实验、消融、数据效率、跨数据集泛化、人类评估、不同LLM对比,非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,动机阐述有说服力,写作流畅
  • 价值: ⭐⭐⭐⭐ 为LLM在VLN中的应用提供了实用方案,消除了与专用模型的性能差距

相关论文