Prioritized Semantic Learning for Zero-Shot Instance Navigation¶
会议: ECCV 2024
arXiv: 2403.11650
代码: https://github.com/XinyuSun/PSL-InstanceNav (有)
领域: Agent
关键词: Zero-shot Navigation, Instance Navigation, CLIP, Semantic Perception, Image-Goal Navigation
一句话总结¶
提出 Prioritized Semantic Learning (PSL) 方法,通过语义感知智能体架构、优先语义训练策略和语义扩展推理方案,显著提升导航智能体的语义感知能力,在零样本 ObjectNav 上超越 SOTA 66%(SR),并提出了更具挑战性的 InstanceNav 任务。
研究背景与动机¶
- 领域现状:零样本目标导航(ZSON)是具身 AI 的重要任务,通过 ImageNav 预训练 + CLIP 零样本迁移实现无需标注的目标导航。
- 现有痛点:ImageNav 预训练任务不要求智能体学习语义信息——仅靠布局匹配(边缘/轮廓)就能获得高成功率。这导致 ZSON agent 语义感知能力不足,限制了在语义敏感任务上的表现。
- 核心矛盾:ImageNav 训练目标中大量 goal images 语义模糊(如墙壁、走廊全景),加剧了语义忽视问题。同时 ImageNav reward 鼓励精确视图匹配而非语义对应。
- 本文要解决什么:提升导航智能体在零样本设置下的语义感知和理解能力。
- 切入角度:从 agent 架构、训练策略、推理方案三个层面全面增强语义能力。
- 核心 idea 一句话:选择语义清晰的 goal image + 放松视图匹配约束 + 增加语义感知模块,让 ImageNav 预训练真正学到语义信息。
方法详解¶
整体框架¶
PSL 方法包含三部分:(1) PSL Agent 架构——在 ZSON 基础上增加 CLIP 语义编码器和语义感知模块 (SPM);(2) 优先语义训练策略——熵最小化 goal view 选择 + 视角奖励放松;(3) 语义扩展推理方案——用图像嵌入增强文本查询,消除训练-测试模态差距。
关键设计¶
-
PSL Agent Architecture(PSL 智能体架构)
- 做什么:在导航智能体中增强语义感知能力。
- 核心思路:在 ZSON 的可学习 ResNet50 观察编码器基础上,增加一个冻结 CLIP 视觉编码器提取语义级观察 \(\mathbf{z}_S\)。引入 Semantic Perception Module (SPM),用 MLP 编码 goal 嵌入 \(\mathbf{z}_G\) 和语义观察 \(\mathbf{z}_S\) 的对应关系,输出低维语义感知嵌入 \(\mathbf{z}_{SP}\)。
- 设计动机:实验证明仅用可学习 ResNet50 不能有效学习语义信息,需要额外的冻结 CLIP 编码器提供语义监督;SPM 作为瓶颈层压缩关键语义对应信息。
-
Entropy-minimized Goal View Selection(熵最小化 goal view 选择)
- 做什么:选择语义内容丰富的 goal images 替代随机采样。
- 核心思路:在 goal point 均匀旋转 \(\Omega\) 次渲染不同角度图像,用 CLIP 计算与 6 个常见物体类别的相似度,选择使类别分布熵最小的视角——即包含明确主导物体的视角。
- 设计动机:原始 HM3D ImageNav 数据集中大部分 goal images 被分类为墙壁/房间等无意义类别,选择低熵视角确保至少有一个显著物体。
-
Perspective Reward Relaxation(视角奖励放松)
- 做什么:放松 PPO 训练中的精确视图匹配要求。
- 核心思路:在不同 pitch 角度渲染额外图像圈,扩大 goal view 候选空间。重写 reward:成功到达位置 + 面向目标方向(仅 yaw,忽略 pitch)+ 距离/角度密度奖励 - 延迟惩罚。
- 设计动机:精确视图匹配让智能体过于关注几何对齐而忽视语义,放松后鼓励语义对应。
-
Semantic Expansion Inference(语义扩展推理)
- 做什么:解决训练时用图像 goal、测试时用文本 goal 的模态差距。
- 核心思路:训练阶段维护一个图像嵌入支持集 \(\mathcal{V}\)(约 0.1M 向量,相似度阈值 \(\lambda=0.8\) 过滤)。推理时将文本嵌入 \(\mathbf{z}_T\) 作为 query,对支持集做加权求和得到检索嵌入 \(\mathbf{z}_R\),增强文本 goal 的图像级细粒度信息。
- 设计动机:直接替换图像→文本嵌入存在粒度差异,通过检索图像嵌入辅助可保持训练-测试一致性。
损失函数 / 训练策略¶
- 使用 PPO 强化学习训练 Actor-Critic 网络
- 奖励函数 \(R_t^{PSL}\) 包含四部分:位置成功奖励、方向成功奖励、距离/角度密度奖励、延迟惩罚
- 在 HM3D 720 万 episodes 上预训练,每个 episode 从 10 个候选中选 4 个最小熵 goal images
实验关键数据¶
主实验¶
HM3D ObjectNav 零样本评估:
| 方法 | with LLM | with Mapping | SR↑ | SPL↑ |
|---|---|---|---|---|
| ZSON | ✘ | ✘ | 25.5 | 12.6 |
| L3MVN | ✔ (GPT-2) | ✔ | 35.2 | 16.5 |
| PixelNav | ✔ (GPT-4) | ✘ | 37.9 | 20.5 |
| ESC | ✔ (GPT-3.5) | ✔ | 39.2 | 22.3 |
| PSL (Ours) | ✘ | ✘ | 42.4 | 19.2 |
InstanceNav Text-goal 任务:
| 方法 | SR↑ | SPL↑ |
|---|---|---|
| CoW | 1.8 | 1.1 |
| ESC | 6.5 | 3.7 |
| ZSON | 10.6 | 4.9 |
| PSL | 16.5 | 7.5 |
消融实验¶
各组件消融(InstanceNav Image-Goal 设置):
| SPM | GVS | PRR | SR↑ | SPL↑ |
|---|---|---|---|---|
| ✘ | ✘ | ✘ (ZSON) | 12.7 | 6.5 |
| ✔ | ✘ | ✘ | 19.5 | 7.9 |
| ✘ | ✔ | ✘ | 14.8 | 7.7 |
| ✔ | ✔ | ✔ (Full) | 22.0 | 10.7 |
关键发现¶
- PSL 比 ZSON baseline SR 提升 66%(42.4% vs 25.5%),且不需要 LLM 或额外传感器
- 语义感知模块 (SPM) 单独贡献 +6.8% SR 提升
- Goal View Selection 和 Perspective Relaxation 需要与 SPM 配合才能发挥最大效果
- 端到端方法在 InstanceNav 上大幅超越基于地图的方法
- Layout-Only agent 在 ImageNav 上表现与 ZSON 接近,证明 ImageNav 不需要语义信息
亮点与洞察¶
- 深刻的实验洞察:pilot study 揭示 ImageNav 不需要语义信息这一关键问题,驱动整篇论文设计
- 轻量高效:不需要 LLM、不需要地图构建、不需要额外传感器,仅 ResNet-50 作为 backbone
- 新任务定义:InstanceNav 比 ObjectNav 更贴近实际需求(导航到特定实例而非类别)
- 训练-推理一致性:语义扩展推理方案优雅解决了 image-text 模态差距
局限性 / 可改进方向¶
- InstanceNav 的文本描述由 CogVLM 自动生成,质量和多样性有限
- SPM 仅为简单 MLP,更强的语义推理模块可能进一步提升效果
- 支持集大小为 0.1M 向量,大规模场景下检索效率需优化
- 仅在 HM3D 环境评估,真实场景迁移能力未验证
相关工作与启发¶
- 建立在 ZSON 的 ImageNav 预训练框架上,通过增强语义能力实现大幅提升
- CLIP 的跨模态对齐能力在导航中的应用越来越成熟
- 与 ESC 等基于 LLM 的方法对比证明:精心设计的端到端方法可超越 LLM 辅助方法
- 启发:预训练任务的设计(如 goal view 选择)对下游零样本迁移至关重要
评分¶
- ⭐⭐⭐⭐ 新颖性:熵最小化 goal view 选择和视角放松设计新颖,但整体方法是对 ZSON 的增量改进
- ⭐⭐⭐⭐⭐ 实验充分度:ObjectNav + InstanceNav 双任务、image-goal + text-goal 双设置、详尽消融
- ⭐⭐⭐⭐⭐ 写作质量:pilot study 驱动的研究动机清晰,图表设计直观
- ⭐⭐⭐⭐⭐ 价值:66% SR 提升 + 新任务定义 + 新数据集,贡献显著
相关论文¶
- [ECCV 2024] SemGrasp: Semantic Grasp Generation via Language Aligned Discretization
- [ECCV 2024] LLM as Copilot for Coarse-Grained Vision-and-Language Navigation
- [ECCV 2024] DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control
- [ECCV 2024] AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation
- [ECCV 2024] See and Think: Embodied Agent in Virtual Environment