跳转至

MovSemCL: Movement-Semantics Contrastive Learning for Trajectory Similarity (Extension)

会议: AAAI 2026
arXiv: 2511.12061
代码: https://github.com/ryanlaics/MovSemCL
领域: 自监督 / 轨迹分析
关键词: trajectory similarity, contrastive learning, movement semantics, hierarchical encoding, curvature-guided augmentation

一句话总结

提出 MovSemCL 框架,将 GPS 轨迹转化为运动语义特征(位移向量 + 航向角 + Node2Vec 空间图嵌入),通过 patch 级双层注意力实现层次编码(复杂度从 \(O(L^2)\) 降为近线性),并设计曲率引导增广(CGA)保留转弯/路口等行为关键片段,在轨迹检索任务上 mean rank 接近理想值 1,推理延迟降低 43.4%。

研究背景与动机

领域现状:轨迹相似性计算是出行共享、物流优化、城市分析等应用的基础功能。传统方法(Hausdorff、Fréchet 距离)计算代价高且忽略语义;学习式方法(RNN/CNN/Transformer)将轨迹嵌入向量空间以余弦相似度高效检索。

三个核心痛点: - (L1) 语义与层次建模不足:现有方法将轨迹视为扁平坐标序列,既不提取运动动力学特征(速度变化、方向转换),也不建模"点→操纵→行程"的层次结构 - (L2) 计算效率差:真实轨迹常含数百个点。RNN 无法并行化,Transformer 的 \(O(L^2)\) 注意力迫使有损下采样,破坏运动保真度 - (L3) 增广语义不感知:对比学习中随机 mask 产生空间跳跃、均匀采样丢失转弯/路口信息,生成物理上不合理的轨迹视图

切入角度:针对三个痛点分别设计运动语义编码(L1)、patch 层次编码(L1+L2)、曲率引导增广(L3),三者协同构成完整框架。

方法详解

整体架构

MovSemCL 包含三个阶段:(1) Movement-Semantics Encoding 将原始 GPS 转为运动语义特征;(2) Hierarchical Semantics Encoding 分 patch 做双层注意力建模;(3) Semantics-Aware Contrastive Learning 用曲率引导增广 + MoCo 对比损失训练。

阶段一:运动语义编码

  • 坐标归一化:先用 Mercator 投影将 WGS84 经纬度转平面坐标,再按区域宽高归一化到 \([0,1]\)
  • 运动动力学特征:计算相邻点位移向量 \((dx_i, dy_i)\) 和航向角 \(\theta_i = \arctan2(dy_i, dx_i)/\pi\),捕捉方向流与瞬时变化
  • 轨迹诱导空间图:将地图划分为 \(N_x \times N_y\) 网格,根据历史轨迹在相邻格子间的转移频次构建有向加权图,用 Node2Vec 学习每个格子的结构嵌入 \(\mathbf{ST}_i \in \mathbb{R}^{d_{se}}\)
  • 特征拼接:每个点的最终表示 \(\mathbf{f}_i = [dx_i, dy_i, \theta_i, \mathbf{ST}_i] \in \mathbb{R}^{d_{in}}\),前三维编码局部运动,空间嵌入编码全局上下文

阶段二:层次语义编码

  • Patch 构建:将长度 \(L\) 的序列分为 \(M = \lceil L/P \rceil\) 个 patch(\(P=4\)),每个 patch 是局部连贯的运动单元
  • Intra-Patch Attention:在每个 patch 内做 self-attention 捕捉局部运动模式,再通过 masked average pooling 压缩为定长向量 \(\mathbf{h}_j\)
  • Inter-Patch Attention:以 patch 嵌入序列做 self-attention 捕捉全局长距离依赖和轨迹整体意图
  • 复杂度优势:从传统 \(O(L^2)\) 降为 \(O(L \cdot P + M^2)\),在典型轨迹长度下 \(M \ll L\),实现近线性扩展

阶段三:语义感知对比学习

  • 曲率引导增广(CGA):对每个轨迹点计算局部转弯角,角度大的点(转弯/路口)赋予高保留权重,角度小的点(直行冗余)有更高概率被 mask。始终保留起止点。用 multinomial sampling 按 \((1 - p_i)\) 采样 mask 集合
  • 与朴素增广的区别:随机 mask 会在空间上产生跳跃,均匀采样会丢失关键转弯信息,block mask 可能整段删除关键操纵。CGA 则保留行为信息密度最高的片段
  • 对比目标:采用 MoCo 框架,为每条轨迹生成两个 CGA 增广视图作为正对,其他轨迹嵌入作为负样本。温度 \(\tau = 0.05\),query encoder 反向传播更新,key encoder 指数移动平均更新

CGA 算法细节

  1. 计算每个内部点的转弯角 \(\alpha_i\)(相邻位移向量夹角的 arccos)
  2. 归一化到 \([0,1]\),赋予保留权重:端点用 \(w_{\text{endpoint}}\),内部点用 \(w_{\text{base}} + \hat{\alpha}_i \cdot w_{\text{direction}}\)
  3. 归一化为概率后,按 \((1-p_i)\) multinomial 采样 \(\lfloor L \cdot r_{\text{mask}} \rfloor\) 个点进行 mask
  4. 时间复杂度 \(O(L)\),可控参数包括 mask 比例和权重三元组

实验关键数据

数据集

数据集 来源 平均点数 平均长度 特点
Porto 葡萄牙出租车轨迹 (2013-2014) 48 6.37 km 密集城市短途
Germany 德国跨城轨迹 (2006-2013) 72 252.49 km 稀疏长距离

轨迹检索(RQ1)

在 100K 数据库上,MovSemCL 的 mean rank 为 1.005(Porto)和 1.008(Germany),接近理想值 1。TrajCL 分别为 1.010 和 1.045,传统方法 EDR 则高达 28.75 和 1370。

鲁棒性(RQ2)

  • 下采样:mask 概率 0.5 时,TrajCL 在 Porto 退化到 36.35,MovSemCL 仅为 9.95
  • 坐标畸变:畸变率 0.5 时,MovSemCL 仍保持 mean rank ≈ 1.004(Porto),展现极强抗噪能力

启发式距离近似(RQ3)

微调后近似 EDR/Hausdorff/Fréchet 等传统距离,MovSemCL 在所有度量上平均排名第 1。EDR 的 HR@5 比 TrajCL 提升 20.3%(0.172→0.207)。

效率(RQ4)

指标 TrajCL MovSemCL 提升
FLOPs (M) 158.69 93.34 41.2%
延迟 (ms) 6.08 3.44 43.4%
吞吐量 (samples/s) 164.46 290.41 76.6%

消融实验(RQ5)

在 Porto 100K 上:去掉运动语义编码(MSE)mean rank 从 1.005 恶化到 3.045(影响最大);去掉曲率引导增广(CGA)恶化到 1.098;去掉层次编码(HSE)恶化到 1.012。MSE 是最关键组件。

超参数(RQ6)

  • 训练 10 epoch 即收敛,20 epoch 稳定无过拟合
  • 训练数据 20K 条即可在标准条件下收敛
  • 嵌入维度 256 最优,再增大无明显收益
  • Patch 大小 \(P=4\) 最优——更小缺局部上下文,更大稀释运动语义

亮点与洞察

  • 曲率引导增广(CGA)是本文最具创意的设计:不做随机 mask,而是按运动复杂度有导向地保留关键段,兼顾物理合理性与语义丰富性
  • 运动语义特征(位移+航向角+空间图嵌入)比原始坐标信息密度大得多,消融显示这是性能的第一驱动力
  • Patch 层次编码将 \(O(L^2)\) 注意力巧妙降为 \(O(L \cdot P + M^2)\),在长轨迹上兼顾效率与表达力
  • 论文结构极为工整:三个 Limitation 一一对应三个设计组件,逻辑链清晰
  • MoCo 对比框架 + 动态负样本队列保证了训练稳定性

局限性

  • 空间图的 Node2Vec 嵌入依赖训练集的轨迹覆盖——新区域或数据稀疏区域可能无法获得有效嵌入
  • Patch 大小 \(P\) 是固定超参数,不同场景(城市 vs. 公路)可能需要不同设定
  • 仅在两个数据集上验证,缺少行人/骑行等非车辆轨迹的评估
  • CGA 的权重三元组 \((w_{\text{endpoint}}, w_{\text{base}}, w_{\text{direction}})\) 需手动调参

相关工作脉络

  • 传统方法:EDR(编辑距离+空间阈值)、Hausdorff(最大最近邻距离)、Fréchet(考虑时空顺序)→ 计算昂贵、忽略语义
  • RNN 系列:t2vec(seq2seq 自编码器)→ TrjSR / E2DTC(循环+注意力)→ 无法并行、长距离依赖弱
  • Transformer + 对比学习:TrajCL(轨迹增广+双特征注意力)、CLEAR(多正样本对比学习)→ \(O(L^2)\) 且增广不感知语义
  • MovSemCL 定位:首次将运动语义特征提取 + 层次 patch 编码 + 语义感知增广统一到对比学习框架中

评分

  • 新颖性: ⭐⭐⭐⭐ 曲率引导增广新颖实用,运动语义+层次编码的组合有设计感
  • 实验充分度: ⭐⭐⭐⭐ 六个研究问题、多数据集、效率分析、消融和超参数实验完整
  • 写作质量: ⭐⭐⭐⭐ 三个 Limitation 对应三个设计,结构清晰
  • 价值: ⭐⭐⭐⭐ 为轨迹表示学习提供了高效且语义丰富的完整方案

相关论文