跳转至

Prioritized Semantic Learning for Zero-Shot Instance Navigation

会议: ECCV 2024
arXiv: 2403.11650
代码: https://github.com/XinyuSun/PSL-InstanceNav (有)
领域: Agent
关键词: Zero-shot Navigation, Instance Navigation, CLIP, Semantic Perception, Image-Goal Navigation

一句话总结

提出 Prioritized Semantic Learning (PSL) 方法,通过语义感知智能体架构、优先语义训练策略和语义扩展推理方案,显著提升导航智能体的语义感知能力,在零样本 ObjectNav 上超越 SOTA 66%(SR),并提出了更具挑战性的 InstanceNav 任务。

研究背景与动机

  1. 领域现状:零样本目标导航(ZSON)是具身 AI 的重要任务,通过 ImageNav 预训练 + CLIP 零样本迁移实现无需标注的目标导航。
  2. 现有痛点:ImageNav 预训练任务不要求智能体学习语义信息——仅靠布局匹配(边缘/轮廓)就能获得高成功率。这导致 ZSON agent 语义感知能力不足,限制了在语义敏感任务上的表现。
  3. 核心矛盾:ImageNav 训练目标中大量 goal images 语义模糊(如墙壁、走廊全景),加剧了语义忽视问题。同时 ImageNav reward 鼓励精确视图匹配而非语义对应。
  4. 本文要解决什么:提升导航智能体在零样本设置下的语义感知和理解能力。
  5. 切入角度:从 agent 架构、训练策略、推理方案三个层面全面增强语义能力。
  6. 核心 idea 一句话:选择语义清晰的 goal image + 放松视图匹配约束 + 增加语义感知模块,让 ImageNav 预训练真正学到语义信息。

方法详解

整体框架

PSL 方法包含三部分:(1) PSL Agent 架构——在 ZSON 基础上增加 CLIP 语义编码器和语义感知模块 (SPM);(2) 优先语义训练策略——熵最小化 goal view 选择 + 视角奖励放松;(3) 语义扩展推理方案——用图像嵌入增强文本查询,消除训练-测试模态差距。

关键设计

  1. PSL Agent Architecture(PSL 智能体架构)

    • 做什么:在导航智能体中增强语义感知能力。
    • 核心思路:在 ZSON 的可学习 ResNet50 观察编码器基础上,增加一个冻结 CLIP 视觉编码器提取语义级观察 \(\mathbf{z}_S\)。引入 Semantic Perception Module (SPM),用 MLP 编码 goal 嵌入 \(\mathbf{z}_G\) 和语义观察 \(\mathbf{z}_S\) 的对应关系,输出低维语义感知嵌入 \(\mathbf{z}_{SP}\)
    • 设计动机:实验证明仅用可学习 ResNet50 不能有效学习语义信息,需要额外的冻结 CLIP 编码器提供语义监督;SPM 作为瓶颈层压缩关键语义对应信息。
  2. Entropy-minimized Goal View Selection(熵最小化 goal view 选择)

    • 做什么:选择语义内容丰富的 goal images 替代随机采样。
    • 核心思路:在 goal point 均匀旋转 \(\Omega\) 次渲染不同角度图像,用 CLIP 计算与 6 个常见物体类别的相似度,选择使类别分布熵最小的视角——即包含明确主导物体的视角。
    • 设计动机:原始 HM3D ImageNav 数据集中大部分 goal images 被分类为墙壁/房间等无意义类别,选择低熵视角确保至少有一个显著物体。
  3. Perspective Reward Relaxation(视角奖励放松)

    • 做什么:放松 PPO 训练中的精确视图匹配要求。
    • 核心思路:在不同 pitch 角度渲染额外图像圈,扩大 goal view 候选空间。重写 reward:成功到达位置 + 面向目标方向(仅 yaw,忽略 pitch)+ 距离/角度密度奖励 - 延迟惩罚。
    • 设计动机:精确视图匹配让智能体过于关注几何对齐而忽视语义,放松后鼓励语义对应。
  4. Semantic Expansion Inference(语义扩展推理)

    • 做什么:解决训练时用图像 goal、测试时用文本 goal 的模态差距。
    • 核心思路:训练阶段维护一个图像嵌入支持集 \(\mathcal{V}\)(约 0.1M 向量,相似度阈值 \(\lambda=0.8\) 过滤)。推理时将文本嵌入 \(\mathbf{z}_T\) 作为 query,对支持集做加权求和得到检索嵌入 \(\mathbf{z}_R\),增强文本 goal 的图像级细粒度信息。
    • 设计动机:直接替换图像→文本嵌入存在粒度差异,通过检索图像嵌入辅助可保持训练-测试一致性。

损失函数 / 训练策略

  • 使用 PPO 强化学习训练 Actor-Critic 网络
  • 奖励函数 \(R_t^{PSL}\) 包含四部分:位置成功奖励、方向成功奖励、距离/角度密度奖励、延迟惩罚
  • 在 HM3D 720 万 episodes 上预训练,每个 episode 从 10 个候选中选 4 个最小熵 goal images

实验关键数据

主实验

HM3D ObjectNav 零样本评估:

方法 with LLM with Mapping SR↑ SPL↑
ZSON 25.5 12.6
L3MVN ✔ (GPT-2) 35.2 16.5
PixelNav ✔ (GPT-4) 37.9 20.5
ESC ✔ (GPT-3.5) 39.2 22.3
PSL (Ours) 42.4 19.2

InstanceNav Text-goal 任务:

方法 SR↑ SPL↑
CoW 1.8 1.1
ESC 6.5 3.7
ZSON 10.6 4.9
PSL 16.5 7.5

消融实验

各组件消融(InstanceNav Image-Goal 设置):

SPM GVS PRR SR↑ SPL↑
✘ (ZSON) 12.7 6.5
19.5 7.9
14.8 7.7
✔ (Full) 22.0 10.7

关键发现

  • PSL 比 ZSON baseline SR 提升 66%(42.4% vs 25.5%),且不需要 LLM 或额外传感器
  • 语义感知模块 (SPM) 单独贡献 +6.8% SR 提升
  • Goal View Selection 和 Perspective Relaxation 需要与 SPM 配合才能发挥最大效果
  • 端到端方法在 InstanceNav 上大幅超越基于地图的方法
  • Layout-Only agent 在 ImageNav 上表现与 ZSON 接近,证明 ImageNav 不需要语义信息

亮点与洞察

  • 深刻的实验洞察:pilot study 揭示 ImageNav 不需要语义信息这一关键问题,驱动整篇论文设计
  • 轻量高效:不需要 LLM、不需要地图构建、不需要额外传感器,仅 ResNet-50 作为 backbone
  • 新任务定义:InstanceNav 比 ObjectNav 更贴近实际需求(导航到特定实例而非类别)
  • 训练-推理一致性:语义扩展推理方案优雅解决了 image-text 模态差距

局限性 / 可改进方向

  • InstanceNav 的文本描述由 CogVLM 自动生成,质量和多样性有限
  • SPM 仅为简单 MLP,更强的语义推理模块可能进一步提升效果
  • 支持集大小为 0.1M 向量,大规模场景下检索效率需优化
  • 仅在 HM3D 环境评估,真实场景迁移能力未验证

相关工作与启发

  • 建立在 ZSON 的 ImageNav 预训练框架上,通过增强语义能力实现大幅提升
  • CLIP 的跨模态对齐能力在导航中的应用越来越成熟
  • 与 ESC 等基于 LLM 的方法对比证明:精心设计的端到端方法可超越 LLM 辅助方法
  • 启发:预训练任务的设计(如 goal view 选择)对下游零样本迁移至关重要

评分

  • ⭐⭐⭐⭐ 新颖性:熵最小化 goal view 选择和视角放松设计新颖,但整体方法是对 ZSON 的增量改进
  • ⭐⭐⭐⭐⭐ 实验充分度:ObjectNav + InstanceNav 双任务、image-goal + text-goal 双设置、详尽消融
  • ⭐⭐⭐⭐⭐ 写作质量:pilot study 驱动的研究动机清晰,图表设计直观
  • ⭐⭐⭐⭐⭐ 价值:66% SR 提升 + 新任务定义 + 新数据集,贡献显著

相关论文