跳转至

Graph-Structured Trajectory Extraction from Travelogues

会议: ACL 2025
arXiv: 2410.16633
代码: 待公开
领域: 信息抽取 / 旅游信息学
关键词: trajectory extraction, travelogue, graph structure, visiting order, geographic inclusion

一句话总结

提出"访问顺序图"(Visiting Order Graph)来统一表示旅行轨迹中的地理包含层级关系和时序转移关系,构建了覆盖 100 篇日语游记的 ATD-VSO 基准数据集(3354 个地理实体、3369 条关系),并通过基线实验发现地理包含关系预测(F1=0.355)是核心瓶颈,为该领域指明了地理知识融合的关键方向。

研究背景与动机

游记是分析人类旅行行为的重要资源,在旅游信息学(旅行推荐、旅游规划)和人文地理学中有广泛应用。自动从游记中提取旅行轨迹具有重要价值,但面临两个核心问题:

第一,轨迹表示不充分。已有研究将轨迹表示为位置序列(Ishino et al. 2012; Wagner et al. 2023),但序列无法刻画地理包含关系——例如"京都市"包含"京都站",两者不应在同一层级的序列中简单排列,而是存在层级嵌套关系。

第二,缺乏公开基准数据集。已有研究均使用私有数据集,无法进行公平比较和研究复现,严重阻碍了该领域的研究积累。

本文同时解决这两个问题:提出图结构的轨迹表示方案,并构建高质量的公开基准数据集。

方法详解

整体框架

将轨迹提取分解为两个级联子任务:(1) 访问状态预测(VSP):判断游记中提及的每个地理实体是否被旅行者实际访问;(2) 访问顺序预测(VOP):在已访问的实体间构建访问顺序图,包括包含关系预测(IRP)和转移关系预测(TRP)。

关键设计

  1. 访问顺序图(Visiting Order Graph):

    • 功能:统一表示轨迹中的地理层级和时序顺序
    • 核心思路:节点为地理实体,边包含两种有向关系——包含关系(Inclusion,如"奈良市"包含"东大寺")和转移关系(Transition,如旅行者从"奈良站"直接移动到"东大寺")。转移关系仅在同一父节点下的兄弟实体间建立
    • 设计动机:通过限制转移关系仅在同级节点间建立,可以通过遍历包含和转移关系推断任意两个实体间的访问顺序——即使它们不直接关联(如"京都站"和"奈良市"通过各自父节点"京都市"→"奈良市"的转移关系间接确定先后顺序)
    • 特殊情况处理:多次访问(实体拆分为子实体)、时间模糊(UnknownTime 标签排除)、地理重叠(Overlap 关系,如"本州"和"东京都")
  2. 多粒度访问状态标签体系:

    • 功能:精细区分不同类型的"提及"
    • 核心思路:实体级 2 标签(Visit/Other)+ 提及级 6 标签(Visit/PlanToVisit/See/Visit-Past/Visit-Future/UnkOrNotVisit)。实体标签通过提及标签聚合规则(MLA)得出:只要有一个提及是 Visit 或 PlanToVisit,实体即标为 Visit
    • 设计动机:游记中对地点的提及方式多样——"到达了奈良站"(Visit)vs "JR 奈良站离近铁奈良站有点远"(事实陈述,不代表访问)vs "下次想去清水寺"(Visit-Future),需要精细区分
  3. 序列排序解码(Sequence Sorting Decoding):

    • 功能:保证转移关系预测的全局一致性
    • 核心思路:基于贪心搜索的约束解码——从所有候选实体对中选取得分最高的转移对 \(\langle e_a, e_b \rangle\),然后排除所有与之冲突的对(反向对、e_b 的其他前驱、e_a 的其他后继),确保同一父节点下的兄弟节点形成唯一合法序列
    • 设计动机:朴素的逐对预测可能产生不一致结果(如 A→B 且 B→A 同时成立),需要全局约束

基线系统

  • VSP:LUKE(LukeForEntityClassification)+ 提及标签聚合规则(MLA)
  • IRP:LUKE(LukeForEntityPairClassification)预测每个实体的父实体
  • TRP:LUKE + 序列排序解码预测后续访问实体
  • 简单规则基线:Majority Label(VSP)、Random/Flat(IRP)、OccOrder(TRP,按文本出现顺序排列)

实验关键数据

主实验:访问状态预测(VSP)

级别 方法 Accuracy Macro F1
提及级 Majority Label 0.679 0.135
提及级 LUKE 0.789 0.468
实体级 Majority Label 0.823 0.451
实体级 LUKE + MLA 0.862 0.740

各标签 F1:Visit 达 0.872~0.918;UnkOrNotVisit 仅 0.482~0.561(最常见错误:误判为 Visit)。

主实验:包含关系预测(IRP)

方法 All F1 Depth=1 F1 Depth≥2 F1
Random 0.043 0.057 0.038
Flat(全部预测 ROOT) 0.244 1.000 0
LUKE 0.355 0.058 0.425

主实验:转移关系预测(TRP)

方法 All F1 Forward F1 Reverse F1
Random 0.190 0.247 0.061
OccOrder (visit status) 0.758 0.794 0.386
LUKE(朴素解码) 0.680 0.737 0.298
LUKE(序列排序解码) 0.748 0.796 0.366

消融实验

配置 关键指标 说明
LUKE 朴素解码 vs 序列排序解码 TRP F1: 0.680 → 0.748 (+0.068) 约束解码有效消除不一致预测
OccOrder-EM vs OccOrder-VS TRP F1: 0.730 → 0.758 基于访问状态的代表提及选择优于最早出现提及
Depth=1 vs Depth≥2(IRP) F1: 0.058 vs 0.425 判断实体是否为顶层(无父节点)极其困难

关键发现

  1. VSP 已相对成熟:Visit 标签的 F1 达 0.872~0.918,说明识别"已访问"地点相当容易
  2. IRP 是核心瓶颈:整体 F1 仅 0.355,因为预训练 LUKE 模型不具备地理实体间的包含知识——"奈良市包含东大寺"这种知识需要外部地理知识注入
  3. 文本顺序≈访问顺序:简单的出现顺序规则(OccOrder)即达 0.758 F1,甚至超过 LUKE 朴素解码(0.680),说明游记中的描述顺序与实际访问顺序高度一致
  4. Reverse 关系最难:旅行者回溯路线(先提及 B 再说实际先去了 A)的预测 F1 仅 0.298~0.386
  5. 数据集标注一致性高:实体级 IAA F1=0.89, κ=0.81;关系级 F1=0.85

亮点与洞察

  • 访问顺序图统一了两类本质不同的关系(空间层级 vs 时间序列),这种图结构设计是该领域的概念性贡献
  • 转移关系限定在同级节点间的设计非常巧妙——使得任意两个节点间的访问顺序都可通过图的遍历推断,保证了表示的完备性
  • 数据集构建流程严谨:使用在线白板工具 Miro 标注包含/转移关系,比纯文本标注更直观
  • 发现了文本出现顺序的强基线效应——这提示改进方向应放在处理"非顺序描述"(如回溯、展望)的案例上
  • 地理知识注入的未来方向清晰:GeoLM 预训练、地理编码特征(坐标/区域形状)、地理知识图谱

局限与展望

  • 数据集规模小:仅 100 篇日语游记,泛化性待验证——需要扩展到其他语言和更大规模
  • 级联评估设置:当前使用 gold labels 作为下游任务输入(如 IRP 使用金标准访问状态),未评估端到端误差传播
  • 基线模型较弱:仅使用 LUKE,未尝试 GPT-4、Llama 等强 LLM 进行关系抽取——这些模型可能具备更强的地理常识
  • IRP 性能严重不足(F1=0.355),距离实用还有很大距离
  • 未处理跨文档的轨迹合并场景(如多篇游记描述同一目的地)
  • 仅针对日语游记,日语特有的文体(如敬语、省略主语)可能影响方法的跨语言迁移

相关工作与启发

  • vs Ishino et al. (2012) / Wagner et al. (2023): 前作采用序列表示轨迹,无法表达地理包含关系;本文的图结构表示在表达力上有质的提升
  • vs ATD-MCL (Higashiyama et al. 2023): 本文在 ATD-MCL 的地理实体标注基础上增加了访问状态和访问顺序标注,形成完整的轨迹提取基准
  • vs GeoLM (Li et al. 2023): GeoLM 预训练融入地理空间信息,是改进 IRP 的潜在方向
  • vs 一般关系抽取: 本文的关系(包含/转移)具有领域特殊性——包含关系需要地理知识而非纯文本推理

评分

  • 新颖性: ⭐⭐⭐⭐ 图结构轨迹表示是有意义的概念创新,任务分解(VSP→IRP→TRP)清晰合理
  • 实验充分度: ⭐⭐⭐ 基线方法较简单(仅 LUKE),缺少 LLM 基线和端到端实验;但作为数据集贡献论文是充分的
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,图示直观,标注流程描述详细
  • 价值: ⭐⭐⭐ 数据集和基准对旅游NLP子领域有价值,但应用面较窄;IRP 的瓶颈发现为后续研究指明了方向

相关论文