WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation¶

会议: CVPR2026 arXiv: 2603.10703 代码: 项目主页（代码与数据集已开放）领域: 自动驾驶 / 行人导航 / 无障碍辅助 关键词: 视觉语言模型, 像素级定位, 深度感知分割, 行人导航, 无障碍推理, VQA

一句话总结¶

提出 WalkGPT——首个面向行人无障碍导航的像素定位大视觉语言模型，统一对话推理、分割掩码与深度估计于单一架构中，并构建了 41k 规模的 PAVE 数据集。

研究背景与动机¶

行人导航安全需求迫切：城市行人路线中存在楼梯、不平地面、停放车辆、临时障碍物等静态/动态屏障，对行动不便人群构成严重风险，但自动化导航系统几乎全部面向车辆，行人级导航严重缺乏。
现有 LVLM 缺乏空间推理：虽然 LLaVA、InstructBLIP 等大视觉语言模型能描述视觉内容，但缺乏显式空间推理能力，无法推断几何结构和深度关系，难以用于行人导航。
空间推理方法依赖用户输入：SpatialRGPT、DepthLM 等空间感知模型需要用户提供视觉锚点或标记来估计深度，在行人导航场景中不切实际。
幻觉问题带来安全隐患：LVLM 容易描述场景中不存在的物体（hallucination），在行人导航中可能导致危险引导。
Grounded LVLM 缺少深度信息：GLAMM、LISA 等定位模型能生成 2D 分割掩码，但缺乏深度信息，无法理解相对距离和空间层级，限制了无障碍导航应用。
缺乏大规模行人视角数据集：此前不存在同时包含行人视角 QA 标注和空间定位标注的大规模数据集，制约了该领域发展。

方法详解¶

整体框架¶

WalkGPT 采用统一架构，共享单个 SAM ViT-H 像素编码器同时服务于文本生成和掩码预测。输入为行人视角图像和导航查询，模型输出包含自由文本推理、分割掩码和相对深度估计的结构化响应。使用四种结构化 token：<p>（对象引用）、<assessment>（无障碍评估）、<SEG>（分割提示）、<distance>（距离描述），将语言生成与分割和深度推理显式关联。

关键设计 1：多尺度查询投影器（MSQP）¶

将像素编码器嵌入映射为语言空间中的图像 token，供 LLM 输入
对特征图在多个空间尺度（原始分辨率、2× 池化、4× 池化、全局均值）进行聚合
每个尺度使用可学习查询嵌入通过两层交叉注意力提取信息
引入分割感知门控函数突出结构和边缘丰富区域
最终将多尺度输出拼接并投影为 \(Q=36\) 个固定长度 token \(\mathbf{V}_{\text{proj}} \in \mathbb{R}^{B \times Q \times H}\)
优势：相比简单 MLP 投影，保留了局部细节与全局场景上下文

关键设计 2：校准文本投影器（CTP）+ 区域对齐损失¶

将 LLM 生成的 <SEG> token 隐状态从 \(H=4096\) 维映射到 \(d_{\text{vis}}=256\) 维视觉空间
每个降维向量通过 MLP + 可学习偏置扩展为 \(K_{\text{bank}}\) 个校准子嵌入，保留细粒度语义
区域对齐损失（Region Alignment Loss）：InfoNCE 对比学习损失，将每个 <SEG> token 与其对应视觉区域对齐，同时推离无关区域
Top-K 注意力选择最显著的图像 token 作为正样本
其他图像的 token 作为负样本
防止 \(H \to d_{\text{vis}}\) 维度压缩时的语义信息丢失

损失函数¶

总损失为三项加权和：

\[\mathcal{L}_{\text{total}} = \alpha_1 \mathcal{L}_{\text{CE}} + \alpha_2 \mathcal{L}_{\text{seg}} + \alpha_3 \mathcal{L}_{\text{NCE}}\]

\(\mathcal{L}_{\text{CE}}\)：自回归交叉熵（对话生成 + 深度文本预测）
\(\mathcal{L}_{\text{seg}} = \mathcal{L}_{\text{Dice}} + \mathcal{L}_{\text{CE}_{seg}}\)（分割掩码预测）
\(\mathcal{L}_{\text{NCE}}\)：区域对齐对比损失

深度估计通过 <distance> token 以自然语言形式在自回归序列中预测，无需专用深度头或稠密深度监督。

PAVE 数据集¶

41k 行人视角图像-问题-答案三元组，来源于 SANPO 实景子集
每帧包含 RGB、语义/实例分割掩码、深度图、无障碍标签
使用 GPT-5-nano 生成结构化 VQA 对，结合自动验证 + 人工审查
训练集 85 个视频 session（~8.5k 帧），验证集 6 个（~600 帧）

实验¶

模型	CIDEr↑	METEOR↑	mIoU↑	Depth Acc.↑	AbsRel↓
GLAMM-FT	37.96	39.12	18.23	38.95	77.05
PixelLM-FT	37.49	38.02	18.10	39.00	74.61
Sa2VA-FT	38.82	39.66	16.10	40.54	73.82
WalkGPT (7B)	41.97	42.36	19.95	41.97	67.88
WalkGPT (13B)	41.17	43.01	20.16	48.95	70.66

所有零样本基线全面失败，无法产出深度估计
微调后基线有改善但仍不充分
WalkGPT 13B 在 mIoU 上超越 PixelLM-FT 10%+（20.16 vs 18.10），深度准确率提升 25%+（48.95 vs 39.00）

RES 基准测试（表2）¶

模型	refCOCO val	refCOCO+ val	refCOCOg val
LISA	74.1	62.4	66.4
PixelLM	73.0	66.3	69.3
WalkGPT	76.2	70.0	72.6

WalkGPT 在非专门设计的 RES 任务上仍超越 LISA 和 PixelLM 3–4%。

消融实验（表5）¶

变体	METEOR↑	mIoU↑	Depth Acc.↑
WalkGPT (Full)	43.01	20.16	48.95
w/o MSQP → MLP	39.50	17.40	43.39
w/o 多尺度聚合	41.60	19.30	44.70
CTP → Linear	40.70	18.60	47.98
w/o \(\mathcal{L}_{\text{NCE}}\)	41.00	18.90	47.00
w/o `<distance>`	41.22	20.01	38.77

关键发现¶

MSQP 是性能提升的核心组件，替换为 MLP 导致三项指标全面大幅下降
多尺度聚合对空间结构和深度线索捕获至关重要
<distance> token 对深度预测贡献最大（移除后 Depth Acc. 从 48.95 降至 38.77），但不影响分割
幻觉率 CHAIRi 仅 18.49（LLaVA-1.5 为 22.16），对象覆盖率 83.66%（LLaVA-1.5 为 33.04），像素级定位有效抑制幻觉

亮点¶

首创性：首个面向行人无障碍导航的像素定位 LVLM，提出 Grounded Navigation Guide 新任务
优雅的统一架构：对话推理、分割、深度估计通过结构化 token 在单一自回归过程中完成，无需专用深度头
MSQP 设计精巧：多尺度门控交叉注意力将高分辨率细节与全局上下文压缩为紧凑 token，显著优于 MLP 投影
区域对齐损失有效：对比学习防止维度压缩时的语义丢失，增强语言-视觉对应
大规模数据集贡献：PAVE 填补了行人视角 VQA + 空间定位标注数据集的空白

局限性¶

对强反射表面（如建筑幕墙上的路面反射）误判为物理障碍，单视角下难以区分真实几何与视觉伪影
运动模糊、噪声表面、严重类别不平衡均影响分割质量
数据集仅来自 SANPO 实景子集，跨域泛化能力未验证
分割 mIoU 绝对值偏低（~20%），反映 PAVE 场景固有难度但也限制实用性
深度估计以离散文本形式输出，精度受限于语言表达粒度
训练数据从 91 个 session 采样 100 帧/session，可能遗漏重要场景变化

评分¶

新颖性: ⭐⭐⭐⭐⭐（首创任务定义 + 统一架构 + 新数据集）
实验充分度: ⭐⭐⭐⭐（多维度评估 + 消融充分，但数据集规模和跨域实验有限）
写作质量: ⭐⭐⭐⭐（结构清晰，公式规范，图表丰富）
价值: ⭐⭐⭐⭐（填补重要空白，社会意义大，但实用性受分割精度制约）