跳转至

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

会议: CVPR2026 arXiv: 2603.10703 代码: 项目主页(代码与数据集已开放) 领域: 自动驾驶 / 行人导航 / 无障碍辅助 关键词: 视觉语言模型, 像素级定位, 深度感知分割, 行人导航, 无障碍推理, VQA

一句话总结

提出 WalkGPT——首个面向行人无障碍导航的像素定位大视觉语言模型,统一对话推理、分割掩码与深度估计于单一架构中,并构建了 41k 规模的 PAVE 数据集。

研究背景与动机

  1. 行人导航安全需求迫切:城市行人路线中存在楼梯、不平地面、停放车辆、临时障碍物等静态/动态屏障,对行动不便人群构成严重风险,但自动化导航系统几乎全部面向车辆,行人级导航严重缺乏。
  2. 现有 LVLM 缺乏空间推理:虽然 LLaVA、InstructBLIP 等大视觉语言模型能描述视觉内容,但缺乏显式空间推理能力,无法推断几何结构和深度关系,难以用于行人导航。
  3. 空间推理方法依赖用户输入:SpatialRGPT、DepthLM 等空间感知模型需要用户提供视觉锚点或标记来估计深度,在行人导航场景中不切实际。
  4. 幻觉问题带来安全隐患:LVLM 容易描述场景中不存在的物体(hallucination),在行人导航中可能导致危险引导。
  5. Grounded LVLM 缺少深度信息:GLAMM、LISA 等定位模型能生成 2D 分割掩码,但缺乏深度信息,无法理解相对距离和空间层级,限制了无障碍导航应用。
  6. 缺乏大规模行人视角数据集:此前不存在同时包含行人视角 QA 标注和空间定位标注的大规模数据集,制约了该领域发展。

方法详解

整体框架

WalkGPT 采用统一架构,共享单个 SAM ViT-H 像素编码器同时服务于文本生成和掩码预测。输入为行人视角图像和导航查询,模型输出包含自由文本推理、分割掩码和相对深度估计的结构化响应。使用四种结构化 token:<p>(对象引用)、<assessment>(无障碍评估)、<SEG>(分割提示)、<distance>(距离描述),将语言生成与分割和深度推理显式关联。

关键设计 1:多尺度查询投影器(MSQP)

  • 将像素编码器嵌入映射为语言空间中的图像 token,供 LLM 输入
  • 对特征图在多个空间尺度(原始分辨率、2× 池化、4× 池化、全局均值)进行聚合
  • 每个尺度使用可学习查询嵌入通过两层交叉注意力提取信息
  • 引入分割感知门控函数突出结构和边缘丰富区域
  • 最终将多尺度输出拼接并投影为 \(Q=36\) 个固定长度 token \(\mathbf{V}_{\text{proj}} \in \mathbb{R}^{B \times Q \times H}\)
  • 优势:相比简单 MLP 投影,保留了局部细节与全局场景上下文

关键设计 2:校准文本投影器(CTP)+ 区域对齐损失

  • 将 LLM 生成的 <SEG> token 隐状态从 \(H=4096\) 维映射到 \(d_{\text{vis}}=256\) 维视觉空间
  • 每个降维向量通过 MLP + 可学习偏置扩展为 \(K_{\text{bank}}\) 个校准子嵌入,保留细粒度语义
  • 区域对齐损失(Region Alignment Loss):InfoNCE 对比学习损失,将每个 <SEG> token 与其对应视觉区域对齐,同时推离无关区域
  • Top-K 注意力选择最显著的图像 token 作为正样本
  • 其他图像的 token 作为负样本
  • 防止 \(H \to d_{\text{vis}}\) 维度压缩时的语义信息丢失

损失函数

总损失为三项加权和:

\[\mathcal{L}_{\text{total}} = \alpha_1 \mathcal{L}_{\text{CE}} + \alpha_2 \mathcal{L}_{\text{seg}} + \alpha_3 \mathcal{L}_{\text{NCE}}\]
  • \(\mathcal{L}_{\text{CE}}\):自回归交叉熵(对话生成 + 深度文本预测)
  • \(\mathcal{L}_{\text{seg}} = \mathcal{L}_{\text{Dice}} + \mathcal{L}_{\text{CE}_{seg}}\)(分割掩码预测)
  • \(\mathcal{L}_{\text{NCE}}\):区域对齐对比损失

深度估计通过 <distance> token 以自然语言形式在自回归序列中预测,无需专用深度头或稠密深度监督。

PAVE 数据集

  • 41k 行人视角图像-问题-答案三元组,来源于 SANPO 实景子集
  • 每帧包含 RGB、语义/实例分割掩码、深度图、无障碍标签
  • 使用 GPT-5-nano 生成结构化 VQA 对,结合自动验证 + 人工审查
  • 训练集 85 个视频 session(~8.5k 帧),验证集 6 个(~600 帧)

实验

主实验:Grounded Navigation Conversation(表1)

模型 CIDEr↑ METEOR↑ mIoU↑ Depth Acc.↑ AbsRel↓
GLAMM-FT 37.96 39.12 18.23 38.95 77.05
PixelLM-FT 37.49 38.02 18.10 39.00 74.61
Sa2VA-FT 38.82 39.66 16.10 40.54 73.82
WalkGPT (7B) 41.97 42.36 19.95 41.97 67.88
WalkGPT (13B) 41.17 43.01 20.16 48.95 70.66
  • 所有零样本基线全面失败,无法产出深度估计
  • 微调后基线有改善但仍不充分
  • WalkGPT 13B 在 mIoU 上超越 PixelLM-FT 10%+(20.16 vs 18.10),深度准确率提升 25%+(48.95 vs 39.00)

RES 基准测试(表2)

模型 refCOCO val refCOCO+ val refCOCOg val
LISA 74.1 62.4 66.4
PixelLM 73.0 66.3 69.3
WalkGPT 76.2 70.0 72.6

WalkGPT 在非专门设计的 RES 任务上仍超越 LISA 和 PixelLM 3–4%。

消融实验(表5)

变体 METEOR↑ mIoU↑ Depth Acc.↑
WalkGPT (Full) 43.01 20.16 48.95
w/o MSQP → MLP 39.50 17.40 43.39
w/o 多尺度聚合 41.60 19.30 44.70
CTP → Linear 40.70 18.60 47.98
w/o \(\mathcal{L}_{\text{NCE}}\) 41.00 18.90 47.00
w/o <distance> 41.22 20.01 38.77

关键发现

  • MSQP 是性能提升的核心组件,替换为 MLP 导致三项指标全面大幅下降
  • 多尺度聚合对空间结构和深度线索捕获至关重要
  • <distance> token 对深度预测贡献最大(移除后 Depth Acc. 从 48.95 降至 38.77),但不影响分割
  • 幻觉率 CHAIRi 仅 18.49(LLaVA-1.5 为 22.16),对象覆盖率 83.66%(LLaVA-1.5 为 33.04),像素级定位有效抑制幻觉

亮点

  • 首创性:首个面向行人无障碍导航的像素定位 LVLM,提出 Grounded Navigation Guide 新任务
  • 优雅的统一架构:对话推理、分割、深度估计通过结构化 token 在单一自回归过程中完成,无需专用深度头
  • MSQP 设计精巧:多尺度门控交叉注意力将高分辨率细节与全局上下文压缩为紧凑 token,显著优于 MLP 投影
  • 区域对齐损失有效:对比学习防止维度压缩时的语义丢失,增强语言-视觉对应
  • 大规模数据集贡献:PAVE 填补了行人视角 VQA + 空间定位标注数据集的空白

局限性

  • 对强反射表面(如建筑幕墙上的路面反射)误判为物理障碍,单视角下难以区分真实几何与视觉伪影
  • 运动模糊、噪声表面、严重类别不平衡均影响分割质量
  • 数据集仅来自 SANPO 实景子集,跨域泛化能力未验证
  • 分割 mIoU 绝对值偏低(~20%),反映 PAVE 场景固有难度但也限制实用性
  • 深度估计以离散文本形式输出,精度受限于语言表达粒度
  • 训练数据从 91 个 session 采样 100 帧/session,可能遗漏重要场景变化

相关工作

  • Grounded LVLM:GLAMM、LISA、PixelLM、GSVA、OMG-LLaVA、Sa2VA 等统一语义推理与像素级定位,但未涉足行人导航
  • 空间推理 LVLM:SpatialRGPT、DepthLM、SpatialVLM 使用深度图/视觉锚点,但依赖用户输入
  • 行人导航:WalkNet、StreetViewAI 等关注静态检测或元数据依赖,缺乏细粒度定位
  • 视觉分割:U-Net、nnU-Net、Swin-UNETR 在 PAVE 上 mIoU < 21%,证明场景固有难度
  • RES:MCN、VLT、CRIS、LAVT、ReLA 等标准方法,WalkGPT 无专门训练即超越

评分

  • 新颖性: ⭐⭐⭐⭐⭐(首创任务定义 + 统一架构 + 新数据集)
  • 实验充分度: ⭐⭐⭐⭐(多维度评估 + 消融充分,但数据集规模和跨域实验有限)
  • 写作质量: ⭐⭐⭐⭐(结构清晰,公式规范,图表丰富)
  • 价值: ⭐⭐⭐⭐(填补重要空白,社会意义大,但实用性受分割精度制约)