mmWalk: Towards Multi-modal Multi-view Walking Assistance¶
会议: NeurIPS 2025
arXiv: 2510.11520
代码: https://github.com/KediYing/mmWalk
领域: 视觉问答 / 辅助技术
关键词: 视障辅助, VQA基准, 多模态, 多视角, CARLA仿真
一句话总结¶
mmWalk 构建了首个面向视障人群步行辅助的多模态多视角数据集(CARLA 仿真器生成 62K 帧/559K 全景图 + 69K VQA 对),基准测试发现 SOTA VLM 在风险评估和导航地标识别等安全关键任务上表现不足(最优仅 55.21%),微调后在真实数据集上泛化提升 16.7%。
研究背景与动机¶
- 领域现状:视障人群(BLV)步行辅助依赖 AI 系统理解复杂户外场景。现有数据集多为室内/驾驶场景,缺乏从行人/导盲犬/无人机等视角的多模态数据。
- 现有痛点:VLM 虽在通用 VQA 上表现出色,但对步行安全关键的能力(如识别路面不平、评估过马路风险、识别导航地标)从未被系统评估。
- 核心矛盾:真实 BLV 步行数据采集存在伦理和隐私障碍(GDPR),且标注困难。需要一种合规且可控的数据生成方式。
- 本文要解决什么? 构建系统化的基准来评估 VLM 的步行辅助能力,识别当前模型的安全盲区。
- 切入角度:用 CARLA 仿真器生成多模态(RGB/深度/语义分割)× 多视角(行人/导盲犬/无人机)的步行场景,设计 9 类 VQA 覆盖 3 个难度级别。
- 核心 idea 一句话:用 CARLA 仿真生合规多视角步行数据 + 设计分层 VQA 基准系统评估 VLM 的步行辅助能力,发现安全关键任务上的严重不足。
方法详解¶
整体框架¶
数据集: 120 条手动控制步行轨迹 × 77 场景类别 → 62167 帧(3 视角 × 3 模态 = 559503 全景图)+ 8 种角落用例 + 18 类导航地标。基准: 69391 个 VQA 对 × 9 类问题(3 难度级别:简单/中等/困难),GPT-4o 模板生成 QA 对。
关键设计¶
- 多模态多视角数据采集:
- 做什么:从行人/导盲犬/无人机三个视角采集同步多模态数据
- 核心思路:CARLA 中手动控制行人 agent,沿预设路线步行,每帧同步记录 RGB、深度、语义分割全景图。8 种角落用例包括:过马路、不平地面、障碍物、狭窄通道、入口、高空障碍、死胡同等
-
设计动机:多视角模拟导盲犬和无人机辅助场景,更贴近真实 BLV 辅助系统
-
分层 VQA 基准(mmWalkVQA):
- 做什么:设计覆盖不同能力的 9 类 VQA 问题
- 核心思路:Easy(天气/动作、存在性判断)→ Medium(计数、属性识别、空间推理、描述)→ Hard(视角对比、风险评估、导航地标)。GPT-4o 基于场景元数据和模板生成 QA
-
设计动机:分层设计可以精确定位 VLM 的能力瓶颈——空间推理和风险评估是安全关键的
-
基准评测 + 微调验证:
- 做什么:评测 6 个 SOTA VLM 的零样本/少样本/微调性能
- 核心思路:评测 LLaVA-OneVision/Next、Qwen2VL、InternVL2、Janus-Pro、Chameleon。微调 InternVL2 后在 mmWalk 上从 41.35%→55.21%,在真实数据集 EgoTextVQA 上从 18.5%→21.55%
- 设计动机:验证数据集的训练价值和仿真→真实域迁移能力
损失函数 / 训练策略¶
- 标准 VLM 微调(指令调优)
- 评测指标:归一化分数(满分 100%)
实验关键数据¶
主实验¶
| 模型 | 零样本 | 3-shot | 微调 |
|---|---|---|---|
| InternVL2 | 41.35% | 41.72% | 55.21% |
| LLaVA-Next | 35.64% | 43.71% | — |
| Qwen2VL | 39.23% | — | — |
任务难度分析¶
| 任务类型 | 最优模型得分 | 说明 |
|---|---|---|
| 天气/动作 (E1) | ~70% | 简单 |
| 空间推理 (M1) | ~30% | 最难 |
| 风险评估 (H1) | ~35% | 安全关键 |
| 导航地标 (H2) | ~25% | 严重不足 |
关键发现¶
- 所有 VLM 在风险评估和导航地标上表现极差(<35%),说明当前模型离 BLV 安全辅助还有很大距离
- 微调带来 13.86% 提升(InternVL2),说明领域特化数据的重要性
- 仿真→真实迁移有效:mmWalk 微调后在 EgoTextVQA 上提升 16.7%
- 空间推理是跨模型的共性弱点
亮点与洞察¶
- 安全视角的基准设计:将 VQA 分为安全相关和非安全相关,首次量化了 VLM 在 BLV 辅助中的安全风险
- 仿真→真实迁移有效:CARLA 数据微调后在真实数据集上也有提升,验证了仿真数据的实用价值
- 多视角设计考虑周到:导盲犬视角(低角度)和无人机视角(俯瞰)提供互补信息
局限性 / 可改进方向¶
- 仿真数据与真实世界存在域差距
- 69K QA 对规模有限
- IMU 数据、时序帧、语义标签等多模态信息未充分利用
- 未评估实际 BLV 用户的使用体验
相关工作与启发¶
- vs Ego4D/EgoTextVQA: 通用自我中心 VQA,不针对 BLV 安全需求
- vs ATmaps: ATmaps 定义了导航地标标准,mmWalk 将其集成到 VQA 评测中
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个面向 BLV 步行辅助的多模态多视角基准
- 实验充分度: ⭐⭐⭐⭐ 6 个 VLM + 分层评测 + 微调 + 跨域验证
- 写作质量: ⭐⭐⭐⭐ 数据集设计描述详细
- 价值: ⭐⭐⭐⭐ 揭示了 VLM 在安全关键辅助任务上的差距