UniGoal: Towards Universal Zero-shot Goal-oriented Navigation¶

会议: CVPR 2025
arXiv: 2503.10630
代码: 无
领域: object_detection
关键词: 目标导航, 零样本, 场景图, 图匹配, 大语言模型

一句话总结¶

提出 UniGoal 统一零样本目标导航框架，通过将场景和目标统一表示为图结构，结合图匹配驱动的多阶段探索策略，在单一模型中实现对象类别、实例图像和文本描述三种目标类型的零样本导航，性能超越任务专用方法。

研究背景与动机¶

目标导航根据目标类型分为三个子任务：对象类别导航（ON）、实例图像导航（IIN）和文本目标导航（TN）。现有零样本方法（如 ESC、Mod-IIN）为每种任务设计特定推理流程，无法跨任务复用。InstructNav 虽提出通用框架，但仅支持语言相关任务，无法处理视觉目标（IIN）。

训练式方法（如 GOAT、PSL）通过 RL 训练策略网络实现通用导航，但对仿真环境过拟合，真实世界泛化能力弱。

核心问题: 如何设计一个统一的推理框架，在不做任何修改的情况下，以零样本方式处理对象、图像和文本三种目标？关键挑战在于不同目标类型的信息形式和信息量差异巨大。

方法详解¶

整体框架¶

UniGoal 将场景和目标统一表示为图结构。在线构建 3D 场景图 \(\mathcal{G}_t\)，将三种目标转换为目标图 \(\mathcal{G}_g\)。每个时间步执行图匹配，根据匹配得分选择探索策略。三个阶段渐进推进：零匹配→部分匹配→完美匹配。黑名单机制防止重复探索。整个流程基于 LLM 推理，完全零样本。

关键设计1: 统一图表示与三指标图匹配¶

功能: 将不同类型目标统一为图结构，并设计多维度匹配评估。

核心思路: 图 \(\mathcal{G} = (\mathcal{V}, \mathcal{E})\) 中节点表示物体，边表示物体间关系。三种匹配指标：(1) 节点匹配 \(S_N\)——通过嵌入相似度和二部匹配获得匹配节点对 \(\mathcal{M}_N\)；(2) 边匹配 \(S_E\)——同理匹配边对 \(\mathcal{M}_E\)；(3) 拓扑匹配 \(S_T\)——通过归一化编辑距离比较图拓扑结构。最终匹配分数 \(S = (S_N + S_E + S_T)/3\)。

设计动机: 图结构统一了三种目标的信息表示（类别→单节点图，图像→包含物体和关系的图，文本→解析后的图），同时保留了比纯文本更多的结构信息。三维匹配指标覆盖了语义、关系和拓扑三个层面，提供可靠的匹配得分指导探索。

关键设计2: 多阶段探索策略¶

功能: 根据匹配程度选择最合适的探索策略。

核心思路: 三阶段渐进探索——Stage 1（零匹配, \(S < \sigma_1\)）：将目标图分解为内部相关子图，逐个搜索子图的相关物体，使用 LLM 推理 frontier 选择。Stage 2（部分匹配, \(\sigma_1 \leq S < \sigma_2\)）：利用锚点对（已匹配节点对）进行坐标投影和对齐，通过 LLM 推理物体空间关系将目标图投影到场景坐标系，定位未观测部分。Stage 3（完美匹配, \(S \geq \sigma_2\)）：导航到匹配的中心物体，同时进行场景图校正和目标验证。

设计动机: 不同匹配程度下信息量差异大。零匹配时需要最大化探索未知区域；部分匹配时已有锚点可利用空间推理缩小搜索范围；完美匹配时需要验证正确性（避免误匹配）。渐进策略将复杂导航问题分解为逐步可解的子问题。

关键设计3: 黑名单机制¶

功能: 防止重复探索错误匹配区域。

核心思路: 维护黑名单记录失败的匹配。当 Stage 2 所有锚点对均无法进入 Stage 3 时，将相关节点和边加入黑名单；当 Stage 3 目标验证失败时，将所有匹配对加入黑名单。黑名单中的元素不参与后续图匹配。若场景图校正更新了某些节点/边，则从黑名单中移除。

设计动机: 图匹配取最大相似度结果，但最高分的匹配可能是错误的。没有黑名单，智能体会反复导航到同一错误位置。黑名单强制探索新区域，且允许校正后的元素"重获机会"。

损失函数¶

无训练损失。完全零样本方法，基于 LLM 推理做决策。

实验关键数据¶

主实验结果 (Object/Instance/Text 导航)¶

方法	训练	通用	ON-MP3D SR	IIN-HM3D SR	TN-HM3D SR
SemEXP	需要	否	36.0	—	—
OVRL-v2	需要	否	— (HM3D: 64.7)	—	—
GOAT	需要	是	—	—	—
ESC (零样本)	否	否	—	—	—
SG-Nav (零样本)	否	否	—	—	—
UniGoal	否	是	SOTA	SOTA	SOTA

消融实验¶

组件	ON SR	IIN SR	TN SR
基线 (FBE)	—	—	—
+ 图匹配	+提升	+提升	+提升
+ 多阶段	+提升	+提升	+提升
+ 黑名单	+提升	+提升	+提升

关键发现¶

单模型三任务 SOTA: UniGoal 用同一框架在 ON、IIN、TN 三个任务上均取得零样本 SOTA，超越了任务专用的零样本方法。
甚至超越监督方法: 在部分基准上性能优于需要大量训练的通用方法（如 GOAT）。
图表示优于纯文本: 统一图表示保留了物体间空间/语义关系的结构信息，比文本描述更适合 LLM 推理。
坐标投影有效: Stage 2 通过 LLM 推理空间关系进行坐标投影，显著缩小搜索范围。
黑名单防止死循环: 消融显示黑名单对长序列导航至关重要。

亮点与洞察¶

统一抽象层的选择: 图结构是物体-关系信息的最自然表示形式，比文本（丢失结构）和原始视觉（难以推理）更适合桥接感知与推理。
显式图推理: 不同于将所有信息压缩到 LLM 上下文中做隐式推理，UniGoal 通过图匹配、坐标投影等显式几何推理充分利用空间信息。
三阶段渐进策略: 将导航问题优雅地分解为"搜索→推理→验证"三步，符合人类找物体的认知过程。

局限与展望¶

LLM 推理开销: 每步需要多次 LLM 调用（图分解、frontier 选择、坐标推理），实时性受限。
场景图构建质量: 性能依赖于 VLM 的物体检测和关系提取质量，感知误差会级联传播。
仅限静态场景: 未考虑动态物体或场景变化。
未来可优化 LLM 调用效率、引入学习型场景图构建、扩展到动态场景。

评分¶

⭐⭐⭐⭐ — 将三种导航任务统一为图匹配+多阶段探索的框架设计优雅且有效。零样本超越监督方法的结果令人信服。LLM 推理开销和场景图质量依赖是主要限制。