SPOT: Bridging Natural Language and Geospatial Search for Investigative Journalists¶

一句话总结¶

提出 SPOT 系统，通过微调 LLaMA 3 将自然语言场景描述转换为 YAML 查询，结合语义标签捆绑机制实现对 OpenStreetMap 数据的可靠自然语言访问，服务于调查新闻的地理定位验证。

核心问题: OpenStreetMap (OSM) 是调查记者进行地理定位验证的重要资源，但其查询语言 OverpassQL 对非技术用户构成高门槛。
现有方法局限:
- Overpass Turbo: 需要掌握 OverpassQL 语法，非技术用户难以使用。
- GeoGuessr GPT: 基于 ChatGPT 但不开源，且不连接 OSM 数据库。
- GeoSpy: 仅接受图片输入，不支持自然语言。
- EarthKit: 需要用户手动选择 OSM 标签，仍有技术门槛。
- OverpassT5 (Staniek et al.): 直接生成 OverpassQL，但需要用户了解 OSM 标签体系。
本文动机: 为调查记者构建一个全开源、支持非结构化自然语言输入、可靠准确的 OSM 地理搜索工具。

SPOT 包含四个核心组件：(1) OSM 标签捆绑构建与索引 → (2) 合成训练数据生成 → (3) LLaMA 3 模型微调 → (4) 推理与后处理。用户输入自然语言描述 → 模型输出 YAML 查询 → 语义搜索替换为 OSM 标签 → PostGIS 数据库检索 → 交互地图展示结果。

多层中间表示（YAML）: 不直接生成 OverpassQL，而是先生成不含 OSM 标签的 YAML 结构化查询（包含搜索区域、实体、属性、空间关系），再通过语义搜索引擎将实体名映射到 OSM 标签捆绑包。这种解耦设计使得 OSM 标签更新时无需重新训练模型。
语义标签捆绑系统: 将视觉上相似的 OSM 标签分组（如 light rail / subway / tram → 同一捆绑包），结合 BM25 + SBERT 混合检索，处理用户输入中的拼写错误和同义词。
合成训练数据管线: 通过随机组合 YAML 字段值 + 7 种 persona + 5 种写作风格 + GPT-4o 生成 43,976 个训练样本，涵盖拼写错误、语法错误、非拉丁字母、模糊空间词等真实场景。

使用 LoRA（rank=32, alpha=64）对 LLaMA 3 进行微调，学习率 1e-5，weight decay 0.01，early stopping patience=10。

模型	适配方式	Area	Entity	Entity*	Property	Relation
GPT-4o	Zero-shot	88.14	2.28	90.21	3.03	9.8
GPT-4o	One-shot	89.18	1.13	92.03	10.96	11.11
Mistral	Adapter	93.33	82.54	95.01	56.58	45.45
LLaMA 3	Adapter	92.31	81.41	96.15	50.00	48.05
Qwen2.5	Adapter	92.31	82.31	95.69	51.95	52.60
Phi	Adapter	92.82	79.59	94.10	53.33	53.90
mT5	Adapter	88.21	72.34	90.02	48.89	37.01

模型	实体遗漏	实体幻觉	属性遗漏	属性幻觉
GPT-4o (0-shot)	48	37	53	—
微调 LLMs	大幅减少	大幅减少	大幅减少	—

微调小模型远超 GPT-4o 零/少样本: GPT-4o 在实体识别上仅 2.28%（零样本），而微调 Mistral 达 82.54%，说明 OSM 标签体系需要领域适配。
合成数据管线有效: 43K 合成样本涵盖了多种真实用户输入模式（拼写错误、非拉丁字母、模糊空间词），使微调模型具备鲁棒性。
YAML 中间表示优于直接生成 OverpassQL: 解耦设计使得标签系统可独立更新，且 YAML 语法比 JSON 更容错。
属性和关系仍是难点: 即使最好的微调模型，属性准确率（~56%）和关系准确率（~53%）仍有较大提升空间。