Prioritized Semantic Learning for Zero-shot Instance Navigation¶

会议: ECCV 2024
arXiv: 2403.11650
代码: https://github.com/XinyuSun/PSL-InstanceNav (有)
领域: 机器人（具身导航）
关键词: 零样本导航, 实例导航, 语义学习, CLIP, 具身智能

一句话总结¶

提出Prioritized Semantic Learning (PSL)方法，通过语义增强的Agent架构、优先语义训练策略和语义扩展推理方案，显著提升零样本目标/实例导航中Agent的语义感知能力，在ObjectNav和新提出的InstanceNav任务上实现SOTA。

研究背景与动机¶

零样本目标导航（ZSON）要求Agent在训练时不使用任何场景物体标注，仅通过图像目标导航（ImageNav）任务预训练，然后借助CLIP等视觉-语言模型零样本迁移到目标导航任务。这是构建通用具身Agent的重要路径。但现有ZSON任务仅要求Agent找到给定类别的任意一个物体，距离实际应用中需要识别特定实例还有很大差距。

关键发现——语义忽视问题：论文通过精心设计的先导实验揭示了一个被忽视的重要问题：

Semantic-Non-dominant (SN) Agent：使用Canny算子（破坏语义信息）和可学习ResNet50，在ImageNav任务上竟然获得了与ZSON可比的成功率
Semantic-Dominant (SD) Agent：使用两个冻结的CLIP编码器获取语义信息，反而效果最差

这一反直觉的结果说明：ImageNav预训练任务并不要求Agent学习语义信息，仅靠布局/轮廓信息做视图匹配就能获得高成功率。因此ZSON Agent的语义感知能力实际上很弱，限制了其在依赖语义线索的导航任务上的表现。

核心矛盾：ImageNav预训练目标与下游语义导航需求之间的错配——训练时不需要语义就能完成任务，但零样本迁移时必须依赖语义。

切入角度：从Agent架构、训练策略和推理方案三个层面同时加强语义学习，确保Agent在预训练阶段就建立强大的语义感知能力。

核心Idea：通过选择语义清晰的目标图像、放松精确视图匹配的奖励约束、增加语义感知模块、以及用图像特征扩展文本查询，全方位提升Agent的语义理解能力。

方法详解¶

整体框架¶

PSL方法由三部分组成：(1) PSL Agent架构——增加CLIP语义观测编码器和语义感知模块(SPM)；(2) 优先语义训练策略——熵最小化目标视图选择+视角奖励放松；(3) 语义扩展推理方案——用图像特征检索丰富文本查询。三者协同工作，分别从模型能力、训练信号和推理粒度三个维度提升语义理解。

关键设计¶

Semantic Perception Module (SPM)：

功能：编码目标图像和观测之间的语义对应关系。

核心思路：在ZSON基础上增加一个冻结的CLIP编码器提取语义级观测 $\mathbf{z}_S$，然后用一个MLP瓶颈层将目标嵌入 $\mathbf{z}_G$ 和语义观测 $\mathbf{z}_S$ 压缩为低维语义感知嵌入 $\mathbf{z}_{SP} \in \mathbb{R}^{C_2}$（$C_2 < 2 \times C_1$）。策略网络基于语义感知和观测嵌入做决策：

$$\mathbf{s}_t, \mathbf{h}_t = \pi_\theta(\mathbf{z}_{SP} \oplus \mathbf{z}_O \oplus \mathbf{a}_{t-1} | \mathbf{h}_{t-1})$$

使用PPO训练actor-critic网络，预测6种动作（前进、左转、右转、停止、抬头、低头）。

设计动机：原始ZSON仅靠可学习的观测编码器可能无法有效学习语义信息，通过显式加入语义感知通道并用瓶颈压缩，强制Agent关注关键语义对应关系。

优先语义训练策略（Prioritized Semantic Training）：

功能：解决ImageNav训练数据中目标图像语义模糊的问题。

熵最小化目标视图选择：对每个目标点旋转 $\Omega$ 次渲染不同视角图像，用CLIP对6个物体类别计算分类熵，选择熵最小的视图（即有明确主体物体的图像）作为目标：

$$\omega^* = \arg\min_{\omega \in \Omega} -\frac{1}{\log(|\mathcal{C}|)}\sum_{c \in \mathcal{C}} \mathbf{p}_c \log \mathbf{p}_c$$

其中 $\mathbf{p}_c = \text{softmax}(\tau \cdot \frac{\mathbf{v}_\omega^T \mathbf{q}_c}{\|\mathbf{v}_\omega\|_2\|\mathbf{q}_c\|_2})$。

视角奖励放松：在多个俯仰角和偏航角渲染额外图像后选择，并修改PPO奖励函数，仅鼓励Agent朝向目标的x-z平面方向，忽略pitch角度匹配：

$$R_t^{PSL} = \underbrace{\gamma^{suc}\mathbb{1}\{d_t < \epsilon^d\}}_{\text{到达位置}} + \underbrace{\gamma^{suc}\mathbb{1}\{d_t<\epsilon^d\}\mathbb{1}\{\text{extract}_Y(\mathbf{a}_t)<\epsilon^a\}}_{\text{朝向匹配}} + r_d + r_a - \gamma^{delay}$$

设计动机：原始数据中大量目标图像是墙壁、空房间等无意义场景，这些歧义目标加剧了语义忽视问题。放松奖励使Agent关注语义对应而非精确几何匹配。

语义扩展推理（Semantic Expansion Inference）：

功能：缓解训练用图像嵌入和测试用文本嵌入之间的粒度差异。

核心思路：训练时维护一个支持集 $\mathcal{V}$（约0.1M个多样化图像嵌入，两两相似度低于阈值 $\lambda=0.8$）。推理时，给定文本描述生成 $\mathbf{z}_T$，通过加权检索生成目标嵌入：

$$\mathbf{z}_R = \sum_{\mathbf{v}_i \in \mathcal{V}} \frac{\exp(g(\mathbf{z}_T, \mathbf{v}_i))}{\sum_{\mathbf{v}_j \in \mathcal{V}} \exp(g(\mathbf{z}_T, \mathbf{v}_j))} \ast \mathbf{v}_i$$

设计动机：文本嵌入和图像嵌入存在模态间隙和粒度差异。用图像特征扩展文本查询，使推理时的目标嵌入粒度与训练时一致。

损失函数 / 训练策略¶

使用PPO强化学习在HM3D ImageNav数据集上预训练，7.2M个episode。每个episode随机采样4个熵最小的目标图像（从10个候选中选取）。训练完成后直接零样本迁移到ObjectNav和InstanceNav任务。

实验关键数据¶

主实验¶

ObjectNav任务（HM3D）：

方法	是否依赖LLM	是否需要地图	SR(%)	SPL(%)
L3MVN	✔	✔	35.2	16.5
PixelNav (GPT-4)	✔	✘	37.9	20.5
ESC (GPT-3.5)	✔	✔	39.2	22.3
ZSON	✘	✘	25.5	12.6
PSL (Ours)	✘	✘	42.4	19.2

InstanceNav任务（Text-goal）：

方法	SR(%)	SPL(%)	说明
CoW	1.8	1.1	需要Depth+GPS
ESC (GPT-3.5)	6.5	3.7	需要Depth+GPS
ZSON	10.6	4.9	端到端
PSL (Ours)	16.5	7.5	端到端,无额外传感器

InstanceNav任务（Image-goal）：

方法	SR(%)	SPL(%)
FGPrompt	9.9	2.8
ZSON	14.6	7.3
OVRL-V2 (有监督)	24.8	11.8
PSL (Ours, 无监督)	23.0	11.4

消融实验¶

SPM	GVS	PRR	ZSIN-image SR	ZSIN-text SR	ZSON SR	说明
✘	✘	✘	12.7	10.6	25.5	ZSON基线
✔	✘	✘	19.5	13.0	33.7	+语义感知模块
✘	✔	✘	14.8	11.8	30.4	+目标视图选择
✔	✔	✘	16.5	12.3	35.0	+SPM+GVS
✔	✔	✔	22.0	16.5	42.4	全部组件

语义扩展推理消融（Text-goal InstanceNav）：

PSL Agent	语义扩展	支持集	SR(%)	说明
✘	✔	IIN 3.5K	11.1	有限类别
✘	✔	ImageNav 0.1M	12.4	多样性更好
✔	✘	-	6.6	直接用文本嵌入
✔	✔	ImageNav 0.1M	16.5	完整方案

关键发现¶

PSL首次在不使用LLM的情况下超越LLM-based方法：ObjectNav SR 42.4% vs ESC 39.2%，且不需要额外传感器（Depth, GPS）
SPM是最重要的单一组件：单独加入SPM，ZSIN-image SR从12.7%提升到19.5%（+6.8%）
视角放松需要与PSL Agent配合：在原始Agent上加PRR反而降低性能（12.7%→10.8%），但在PSL Agent上效果显著（16.5%→22.0%）
语义扩展推理解决了模态间隙问题：直接用文本嵌入SR仅6.6%，通过图像检索扩展后提升到16.5%（+9.9%）
PSL在Image-goal InstanceNav上接近有监督方法：SR 23.0% vs OVRL-V2有监督的24.8%，SPL几乎持平

亮点与洞察¶

先导实验设计精妙：Canny/Sobel + ResNet50的Layout-Only Agent成功率媲美ZSON，有力证明了语义忽视问题的存在
三位一体的解决方案：从模型（SPM）、数据（训练策略）、推理（语义扩展）三个维度系统性地解决同一问题
InstanceNav任务的提出有前瞻性：相比ObjectNav（找任意一把椅子），InstanceNav（找"米色竹框双人床"）更接近真实应用需求
无LLM、无地图、无额外传感器仍SOTA：方法简洁高效，适合实际机器人部署

局限与展望¶

仅在模拟环境HM3D中验证，未在真实机器人上验证sim-to-real迁移效果
InstanceNav的文本描述由CogVLM自动生成，可能存在标注噪声
支持集大小（0.1M）和阈值（λ=0.8）需要手动调节，可考虑自适应策略
SPM目前只是简单的MLP瓶颈，可以尝试更复杂的语义推理模块
ResNet-50 backbone较老，换用更大的ViT可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐⭐ 先导实验揭示语义忽视问题，解决方案三位一体且巧妙
实验充分度: ⭐⭐⭐⭐⭐ ObjectNav+InstanceNav两个任务，text/image-goal两个设定，消融全面
写作质量: ⭐⭐⭐⭐⭐ 问题动机由先导实验自然引出，逻辑链完整
价值: ⭐⭐⭐⭐ 无LLM超越LLM方法，对具身导航领域有重要推动