GeoRC: A Benchmark for Geolocation Reasoning Chains¶

会议: ACL 2026
arXiv: 2601.21278
代码: GitHub
领域: 多模态/地理定位
关键词: 地理定位, 推理链, VLM评估, GeoGuessr, 可解释性

一句话总结¶

提出 GeoRC，首个由GeoGuessr冠军级专家撰写的地理定位推理链基准（800条推理链，500个场景），评估VLM生成可审计推理链的能力，发现闭源VLM虽能匹敌人类定位准确率但推理链质量仍大幅落后，开源VLM则几乎等同于纯幻觉基线。

领域现状：VLM在全球图像定位任务上已接近最优人类专家水平——大型闭源模型（Gemini、GPT-5）的国家级准确率与GeoGuessr世界冠军相当。

现有痛点：VLM虽能定位照片，但在解释"为什么选择这个位置"时表现糟糕——推理链常包含幻觉、遗漏细粒度视觉细节、隧道视野式的事后合理化。这使得其定位决策无法被审计和验证。

核心矛盾：定位准确率接近但可解释性差距巨大——VLM的"正确答案"可能基于错误的推理路径，这在调查新闻、OSINT等需要可信推理链的应用中是不可接受的。

本文目标：构建首个由顶级专家撰写的地理定位推理链基准，量化VLM推理链与人类专家之间的差距。

切入角度：邀请三位GeoGuessr冠军级选手（包括2025世界冠军）撰写详细的定位推理过程，建立"黄金标准"推理链。

核心idea：用精确度-召回率-F1框架评估VLM推理链与专家推理链的匹配度，通过LLM-as-judge自动化评估。

GeoRC包含：（1）800条专家推理链（3位冠军级GeoGuessr选手，500个位置）；（2）三种自动评估方法——one-to-all LLM-as-judge、关键点引导LLM-as-judge、VLM-as-judge；（3）精确度/召回率/F1指标和国家级定位准确率。

专家推理链数据集：
- 功能：提供地理定位推理的"黄金标准"
- 核心思路：三位专家（含世界冠军Radu Casapu）为500个GeoGuessr位置撰写推理链，描述从粗到细的定位过程——基础设施、植被、建筑、车辆、语言等数百种区分性场景属性。150个共享位置用于计算专家间一致性
- 设计动机：推理链具有非穷尽性——不同专家关注不同线索，这本身就是评估的挑战和研究价值
One-to-all LLM-as-judge 评估：
- 功能：自动评估推理链质量
- 核心思路：候选推理链的每个步骤与参考推理链的所有步骤比较，计算相似度得分。正向迭代得精确度（候选链中有多少对应参考链），反向得召回率（参考链中有多少被候选覆盖），综合得F1
- 设计动机：与人类评分的MAE仅12.06（vs 人类间12.72），相关系数0.69，验证了自动化方法的可靠性
多层次基线设计：
- 功能：量化推理链质量的上下界
- 核心思路：三个基线——随机推理链（不同位置的专家链，近零分）、幻觉推理链（给定国家城市但无图像，LLM生成，~18分）、改写推理链（改写最佳专家链，高分）。VLM得分可与这些基线直接比较
- 设计动机：幻觉基线尤其有价值——如果VLM得分接近它，说明VLM几乎没有从图像中提取真正的场景信息