ReasonMap: Towards Fine-Grained Visual Reasoning from Transit Maps¶

会议: CVPR2026 arXiv: 2505.18675 代码: fscdc/ReasonMap 领域: 多模态VLM 关键词: 多模态推理, 视觉推理, 空间推理, 地铁地图, Benchmark, 强化微调, GRPO

一句话总结¶

提出 ReasonMap 基准，利用 30 个城市的高分辨率公交地图构建 1,008 个 QA 对，通过两级评估框架（正确性+质量）系统评估 16 个 MLLM 的细粒度视觉推理能力，发现开源模型中 base 优于 reasoning 而闭源模型相反。

MLLM 视觉推理评估不足：现有多模态推理基准（MathVQA、MMMU、MathVerse）主要评估符号/数学推理，视觉理解的作用有限，缺乏对细粒度视觉理解与空间推理的联合评估。
现有基准粒度偏粗：VisuLogic、VisualPuzzles 等关注细粒度感知但不涉及空间规划；CityBench、MapBench 涉及空间推理但粒度不够精细，且依赖外部工具（地图 API）完成任务，绕过了真正的视觉推理。
地图是理想的测试载体：公交地图作为结构化、信息密集的视觉产物，天然要求精确的空间解读能力，非常适合评测细粒度视觉推理。
推理型模型表现存疑：推理型 MLLM 在数学和逻辑任务上表现突出，但在需要视觉接地的空间推理任务上是否同样有效，缺乏系统验证。
视觉依赖 vs 语言先验：已有研究指出 MLLM 可能依赖内部知识先验而非真正关注视觉输入，需要通过视觉遮蔽实验来验证。
缺少训练基线：在细粒度视觉推理场景下缺少 RL 训练基线，阻碍了后续研究对比与探索。

ReasonMap 的构建流程分为三个阶段：

阶段一：数据收集与预处理

阶段二：QA 对构建

阶段三：质量控制

正确性评估（Accuracy）：验证出发/到达站正确性 → 每段路线名称存在性 → 每段出发/到达站有效性 → 相邻段换乘站一致性，全部通过才判为正确。
质量评估（Map Score）：
- 短问题：对比答案与参考路线的段对，匹配 stop1/stop2（1 分）、路线名（2 分）、段内出发/到达站（各 1 分），上限 10 分，正确答案额外加分。
- 长问题：在短问题基础上增加经停站数评估（num_via_stop_score，绝对误差映射到 4 分制）或具体经停站评估（via_stop_score，IoU + 精确匹配平均再截断到 10 分）。
难度加权：高难度样本赋予更大权重，更准确反映模型鲁棒性。

模型	类型	短问题加权 Acc	长问题加权 Acc	Map Score (S/L)
Qwen2.5-VL-72B	Base	26.65%	24.22%	5.09 / 8.80
InternVL3-78B	Base	25.35%	19.62%	4.80 / 7.50
QvQ-72B-Preview	Reasoning	9.03%	4.25%	1.59 / 1.55
Kimi-VL-A3B-Thinking	Reasoning	5.47%	5.47%	2.44 / 3.17
OpenAI o3	Reasoning	63.02%	59.11%	9.53 / 17.96
OpenAI 4o	Base	41.15%	42.80%	6.84 / 13.57
Gemini-2.5-Flash	Reasoning	46.09%	29.86%	7.64 / 9.98

模型	短问题 Acc 提升	长问题 Acc 提升	Map Score 提升 (S/L)
Qwen2.5-VL-3B + RL	+2.78%	+2.51%	+1.06 / +2.39
Qwen2.5-VL-7B + RL	+12.94%	+18.92%	+1.51 / +3.78

开源 base > reasoning，闭源 reasoning > base：开源推理模型在思考过程中反复试错引入视觉混淆（先正确后自我否定），而闭源推理模型具备更强的视觉接地能力，即使出现视觉混淆也能在推理链中自我纠正。
缩放律仍然成立：同系列更大模型准确率更高且 token 用量更少（Qwen2.5-VL-72B 短问题 26.65% vs 3B 的 8.68%）。
视觉遮蔽实验：去除视觉输入后多数模型性能下降，闭源模型下降更显著（Doubao-415 短问题 Acc 下降 21.61%），说明其有效利用了视觉信息；而 Qwen2.5-VL-3B 几乎不变甚至提升，说明小模型更依赖语言先验。
RL 微调一致有效：7B 模型在跨城市设置下短问题 Acc 从 13.28% 提升到 26.22%，长问题从 7.12% 到 26.04%，同时 token 用量减少。
错误类型分析：主要错误包括视觉混淆（相似颜色线路误识别）、格式错误、幻觉（重复正确答案或生成无关内容）和拒答。多种错误可在同一回复中共现。
城市间差异大：即使地图难度相当，不同城市间的模型表现差异显著，与城市知名度和站名语言密切相关。