跳转至

mmWalk: Towards Multi-modal Multi-view Walking Assistance

会议: NeurIPS 2025
arXiv: 2510.11520
代码: https://github.com/KediYing/mmWalk
领域: 视觉问答 / 辅助技术
关键词: 视障辅助, VQA基准, 多模态, 多视角, CARLA仿真

一句话总结

mmWalk 构建了首个面向视障人群步行辅助的多模态多视角数据集(CARLA 仿真器生成 62K 帧/559K 全景图 + 69K VQA 对),基准测试发现 SOTA VLM 在风险评估和导航地标识别等安全关键任务上表现不足(最优仅 55.21%),微调后在真实数据集上泛化提升 16.7%。

研究背景与动机

  1. 领域现状:视障人群(BLV)步行辅助依赖 AI 系统理解复杂户外场景。现有数据集多为室内/驾驶场景,缺乏从行人/导盲犬/无人机等视角的多模态数据。
  2. 现有痛点:VLM 虽在通用 VQA 上表现出色,但对步行安全关键的能力(如识别路面不平、评估过马路风险、识别导航地标)从未被系统评估。
  3. 核心矛盾:真实 BLV 步行数据采集存在伦理和隐私障碍(GDPR),且标注困难。需要一种合规且可控的数据生成方式。
  4. 本文要解决什么? 构建系统化的基准来评估 VLM 的步行辅助能力,识别当前模型的安全盲区。
  5. 切入角度:用 CARLA 仿真器生成多模态(RGB/深度/语义分割)× 多视角(行人/导盲犬/无人机)的步行场景,设计 9 类 VQA 覆盖 3 个难度级别。
  6. 核心 idea 一句话:用 CARLA 仿真生合规多视角步行数据 + 设计分层 VQA 基准系统评估 VLM 的步行辅助能力,发现安全关键任务上的严重不足。

方法详解

整体框架

数据集: 120 条手动控制步行轨迹 × 77 场景类别 → 62167 帧(3 视角 × 3 模态 = 559503 全景图)+ 8 种角落用例 + 18 类导航地标。基准: 69391 个 VQA 对 × 9 类问题(3 难度级别:简单/中等/困难),GPT-4o 模板生成 QA 对。

关键设计

  1. 多模态多视角数据采集:
  2. 做什么:从行人/导盲犬/无人机三个视角采集同步多模态数据
  3. 核心思路:CARLA 中手动控制行人 agent,沿预设路线步行,每帧同步记录 RGB、深度、语义分割全景图。8 种角落用例包括:过马路、不平地面、障碍物、狭窄通道、入口、高空障碍、死胡同等
  4. 设计动机:多视角模拟导盲犬和无人机辅助场景,更贴近真实 BLV 辅助系统

  5. 分层 VQA 基准(mmWalkVQA):

  6. 做什么:设计覆盖不同能力的 9 类 VQA 问题
  7. 核心思路:Easy(天气/动作、存在性判断)→ Medium(计数、属性识别、空间推理、描述)→ Hard(视角对比、风险评估、导航地标)。GPT-4o 基于场景元数据和模板生成 QA
  8. 设计动机:分层设计可以精确定位 VLM 的能力瓶颈——空间推理和风险评估是安全关键的

  9. 基准评测 + 微调验证:

  10. 做什么:评测 6 个 SOTA VLM 的零样本/少样本/微调性能
  11. 核心思路:评测 LLaVA-OneVision/Next、Qwen2VL、InternVL2、Janus-Pro、Chameleon。微调 InternVL2 后在 mmWalk 上从 41.35%→55.21%,在真实数据集 EgoTextVQA 上从 18.5%→21.55%
  12. 设计动机:验证数据集的训练价值和仿真→真实域迁移能力

损失函数 / 训练策略

  • 标准 VLM 微调(指令调优)
  • 评测指标:归一化分数(满分 100%)

实验关键数据

主实验

模型 零样本 3-shot 微调
InternVL2 41.35% 41.72% 55.21%
LLaVA-Next 35.64% 43.71%
Qwen2VL 39.23%

任务难度分析

任务类型 最优模型得分 说明
天气/动作 (E1) ~70% 简单
空间推理 (M1) ~30% 最难
风险评估 (H1) ~35% 安全关键
导航地标 (H2) ~25% 严重不足

关键发现

  • 所有 VLM 在风险评估和导航地标上表现极差(<35%),说明当前模型离 BLV 安全辅助还有很大距离
  • 微调带来 13.86% 提升(InternVL2),说明领域特化数据的重要性
  • 仿真→真实迁移有效:mmWalk 微调后在 EgoTextVQA 上提升 16.7%
  • 空间推理是跨模型的共性弱点

亮点与洞察

  • 安全视角的基准设计:将 VQA 分为安全相关和非安全相关,首次量化了 VLM 在 BLV 辅助中的安全风险
  • 仿真→真实迁移有效:CARLA 数据微调后在真实数据集上也有提升,验证了仿真数据的实用价值
  • 多视角设计考虑周到:导盲犬视角(低角度)和无人机视角(俯瞰)提供互补信息

局限性 / 可改进方向

  • 仿真数据与真实世界存在域差距
  • 69K QA 对规模有限
  • IMU 数据、时序帧、语义标签等多模态信息未充分利用
  • 未评估实际 BLV 用户的使用体验

相关工作与启发

  • vs Ego4D/EgoTextVQA: 通用自我中心 VQA,不针对 BLV 安全需求
  • vs ATmaps: ATmaps 定义了导航地标标准,mmWalk 将其集成到 VQA 评测中

评分

  • 新颖性: ⭐⭐⭐⭐ 首个面向 BLV 步行辅助的多模态多视角基准
  • 实验充分度: ⭐⭐⭐⭐ 6 个 VLM + 分层评测 + 微调 + 跨域验证
  • 写作质量: ⭐⭐⭐⭐ 数据集设计描述详细
  • 价值: ⭐⭐⭐⭐ 揭示了 VLM 在安全关键辅助任务上的差距