mmWalk: Towards Multi-modal Multi-view Walking Assistance¶

会议: NeurIPS 2025
arXiv: 2510.11520
代码: https://github.com/KediYing/mmWalk
领域: 视觉问答 / 辅助技术
关键词: 视障辅助, VQA基准, 多模态, 多视角, CARLA仿真

一句话总结¶

mmWalk 构建了首个面向视障人群步行辅助的多模态多视角数据集（CARLA 仿真器生成 62K 帧/559K 全景图 + 69K VQA 对），基准测试发现 SOTA VLM 在风险评估和导航地标识别等安全关键任务上表现不足（最优仅 55.21%），微调后在真实数据集上泛化提升 16.7%。

领域现状：视障人群（BLV）步行辅助依赖 AI 系统理解复杂户外场景。现有数据集多为室内/驾驶场景，缺乏从行人/导盲犬/无人机等视角的多模态数据。
现有痛点：VLM 虽在通用 VQA 上表现出色，但对步行安全关键的能力（如识别路面不平、评估过马路风险、识别导航地标）从未被系统评估。
核心矛盾：真实 BLV 步行数据采集存在伦理和隐私障碍（GDPR），且标注困难。需要一种合规且可控的数据生成方式。
本文要解决什么？ 构建系统化的基准来评估 VLM 的步行辅助能力，识别当前模型的安全盲区。
切入角度：用 CARLA 仿真器生成多模态（RGB/深度/语义分割）× 多视角（行人/导盲犬/无人机）的步行场景，设计 9 类 VQA 覆盖 3 个难度级别。
核心 idea 一句话：用 CARLA 仿真生合规多视角步行数据 + 设计分层 VQA 基准系统评估 VLM 的步行辅助能力，发现安全关键任务上的严重不足。

数据集: 120 条手动控制步行轨迹 × 77 场景类别 → 62167 帧（3 视角 × 3 模态 = 559503 全景图）+ 8 种角落用例 + 18 类导航地标。基准: 69391 个 VQA 对 × 9 类问题（3 难度级别：简单/中等/困难），GPT-4o 模板生成 QA 对。

多模态多视角数据采集:
做什么：从行人/导盲犬/无人机三个视角采集同步多模态数据
核心思路：CARLA 中手动控制行人 agent，沿预设路线步行，每帧同步记录 RGB、深度、语义分割全景图。8 种角落用例包括：过马路、不平地面、障碍物、狭窄通道、入口、高空障碍、死胡同等
设计动机：多视角模拟导盲犬和无人机辅助场景，更贴近真实 BLV 辅助系统
分层 VQA 基准（mmWalkVQA）:
做什么：设计覆盖不同能力的 9 类 VQA 问题
核心思路：Easy（天气/动作、存在性判断）→ Medium（计数、属性识别、空间推理、描述）→ Hard（视角对比、风险评估、导航地标）。GPT-4o 基于场景元数据和模板生成 QA
设计动机：分层设计可以精确定位 VLM 的能力瓶颈——空间推理和风险评估是安全关键的
基准评测 + 微调验证:
做什么：评测 6 个 SOTA VLM 的零样本/少样本/微调性能
核心思路：评测 LLaVA-OneVision/Next、Qwen2VL、InternVL2、Janus-Pro、Chameleon。微调 InternVL2 后在 mmWalk 上从 41.35%→55.21%，在真实数据集 EgoTextVQA 上从 18.5%→21.55%
设计动机：验证数据集的训练价值和仿真→真实域迁移能力

模型	零样本	3-shot	微调
InternVL2	41.35%	41.72%	55.21%
LLaVA-Next	35.64%	43.71%	—
Qwen2VL	39.23%	—	—