MovSemCL: Movement-Semantics Contrastive Learning for Trajectory Similarity (Extension)¶

会议: AAAI 2026
arXiv: 2511.12061
代码: https://github.com/ryanlaics/MovSemCL
领域: 自监督 / 轨迹分析
关键词: trajectory similarity, contrastive learning, movement semantics, hierarchical encoding, curvature-guided augmentation

一句话总结¶

提出 MovSemCL 框架，将 GPS 轨迹转化为运动语义特征（位移向量 + 航向角 + Node2Vec 空间图嵌入），通过 patch 级双层注意力实现层次编码（复杂度从 \(O(L^2)\) 降为近线性），并设计曲率引导增广（CGA）保留转弯/路口等行为关键片段，在轨迹检索任务上 mean rank 接近理想值 1，推理延迟降低 43.4%。

研究背景与动机¶

领域现状：轨迹相似性计算是出行共享、物流优化、城市分析等应用的基础功能。传统方法（Hausdorff、Fréchet 距离）计算代价高且忽略语义；学习式方法（RNN/CNN/Transformer）将轨迹嵌入向量空间以余弦相似度高效检索。

三个核心痛点： - (L1) 语义与层次建模不足：现有方法将轨迹视为扁平坐标序列，既不提取运动动力学特征（速度变化、方向转换），也不建模"点→操纵→行程"的层次结构 - (L2) 计算效率差：真实轨迹常含数百个点。RNN 无法并行化，Transformer 的 \(O(L^2)\) 注意力迫使有损下采样，破坏运动保真度 - (L3) 增广语义不感知：对比学习中随机 mask 产生空间跳跃、均匀采样丢失转弯/路口信息，生成物理上不合理的轨迹视图

切入角度：针对三个痛点分别设计运动语义编码（L1）、patch 层次编码（L1+L2）、曲率引导增广（L3），三者协同构成完整框架。

方法详解¶

整体架构¶

MovSemCL 包含三个阶段：(1) Movement-Semantics Encoding 将原始 GPS 转为运动语义特征；(2) Hierarchical Semantics Encoding 分 patch 做双层注意力建模；(3) Semantics-Aware Contrastive Learning 用曲率引导增广 + MoCo 对比损失训练。

阶段一：运动语义编码¶

坐标归一化：先用 Mercator 投影将 WGS84 经纬度转平面坐标，再按区域宽高归一化到 \([0,1]\)
运动动力学特征：计算相邻点位移向量 \((dx_i, dy_i)\) 和航向角 \(\theta_i = \arctan2(dy_i, dx_i)/\pi\)，捕捉方向流与瞬时变化
轨迹诱导空间图：将地图划分为 \(N_x \times N_y\) 网格，根据历史轨迹在相邻格子间的转移频次构建有向加权图，用 Node2Vec 学习每个格子的结构嵌入 \(\mathbf{ST}_i \in \mathbb{R}^{d_{se}}\)
特征拼接：每个点的最终表示 \(\mathbf{f}_i = [dx_i, dy_i, \theta_i, \mathbf{ST}_i] \in \mathbb{R}^{d_{in}}\)，前三维编码局部运动，空间嵌入编码全局上下文

阶段二：层次语义编码¶

Patch 构建：将长度 \(L\) 的序列分为 \(M = \lceil L/P \rceil\) 个 patch（\(P=4\)），每个 patch 是局部连贯的运动单元
Intra-Patch Attention：在每个 patch 内做 self-attention 捕捉局部运动模式，再通过 masked average pooling 压缩为定长向量 \(\mathbf{h}_j\)
Inter-Patch Attention：以 patch 嵌入序列做 self-attention 捕捉全局长距离依赖和轨迹整体意图
复杂度优势：从传统 \(O(L^2)\) 降为 \(O(L \cdot P + M^2)\)，在典型轨迹长度下 \(M \ll L\)，实现近线性扩展

阶段三：语义感知对比学习¶

曲率引导增广（CGA）：对每个轨迹点计算局部转弯角，角度大的点（转弯/路口）赋予高保留权重，角度小的点（直行冗余）有更高概率被 mask。始终保留起止点。用 multinomial sampling 按 \((1 - p_i)\) 采样 mask 集合
与朴素增广的区别：随机 mask 会在空间上产生跳跃，均匀采样会丢失关键转弯信息，block mask 可能整段删除关键操纵。CGA 则保留行为信息密度最高的片段
对比目标：采用 MoCo 框架，为每条轨迹生成两个 CGA 增广视图作为正对，其他轨迹嵌入作为负样本。温度 \(\tau = 0.05\)，query encoder 反向传播更新，key encoder 指数移动平均更新

CGA 算法细节¶

计算每个内部点的转弯角 \(\alpha_i\)（相邻位移向量夹角的 arccos）
归一化到 \([0,1]\)，赋予保留权重：端点用 \(w_{\text{endpoint}}\)，内部点用 \(w_{\text{base}} + \hat{\alpha}_i \cdot w_{\text{direction}}\)
归一化为概率后，按 \((1-p_i)\) multinomial 采样 \(\lfloor L \cdot r_{\text{mask}} \rfloor\) 个点进行 mask
时间复杂度 \(O(L)\)，可控参数包括 mask 比例和权重三元组

实验关键数据¶

数据集¶

数据集	来源	平均点数	平均长度	特点
Porto	葡萄牙出租车轨迹 (2013-2014)	48	6.37 km	密集城市短途
Germany	德国跨城轨迹 (2006-2013)	72	252.49 km	稀疏长距离

轨迹检索（RQ1）¶

在 100K 数据库上，MovSemCL 的 mean rank 为 1.005（Porto）和 1.008（Germany），接近理想值 1。TrajCL 分别为 1.010 和 1.045，传统方法 EDR 则高达 28.75 和 1370。

鲁棒性（RQ2）¶

下采样：mask 概率 0.5 时，TrajCL 在 Porto 退化到 36.35，MovSemCL 仅为 9.95
坐标畸变：畸变率 0.5 时，MovSemCL 仍保持 mean rank ≈ 1.004（Porto），展现极强抗噪能力

启发式距离近似（RQ3）¶

微调后近似 EDR/Hausdorff/Fréchet 等传统距离，MovSemCL 在所有度量上平均排名第 1。EDR 的 HR@5 比 TrajCL 提升 20.3%（0.172→0.207）。

效率（RQ4）¶

指标	TrajCL	MovSemCL	提升
FLOPs (M)	158.69	93.34	41.2%
延迟 (ms)	6.08	3.44	43.4%
吞吐量 (samples/s)	164.46	290.41	76.6%

消融实验（RQ5）¶

在 Porto 100K 上：去掉运动语义编码（MSE）mean rank 从 1.005 恶化到 3.045（影响最大）；去掉曲率引导增广（CGA）恶化到 1.098；去掉层次编码（HSE）恶化到 1.012。MSE 是最关键组件。

超参数（RQ6）¶

训练 10 epoch 即收敛，20 epoch 稳定无过拟合
训练数据 20K 条即可在标准条件下收敛
嵌入维度 256 最优，再增大无明显收益
Patch 大小 \(P=4\) 最优——更小缺局部上下文，更大稀释运动语义

亮点与洞察¶

曲率引导增广（CGA）是本文最具创意的设计：不做随机 mask，而是按运动复杂度有导向地保留关键段，兼顾物理合理性与语义丰富性
运动语义特征（位移+航向角+空间图嵌入）比原始坐标信息密度大得多，消融显示这是性能的第一驱动力
Patch 层次编码将 \(O(L^2)\) 注意力巧妙降为 \(O(L \cdot P + M^2)\)，在长轨迹上兼顾效率与表达力
论文结构极为工整：三个 Limitation 一一对应三个设计组件，逻辑链清晰
MoCo 对比框架 + 动态负样本队列保证了训练稳定性

局限性¶

空间图的 Node2Vec 嵌入依赖训练集的轨迹覆盖——新区域或数据稀疏区域可能无法获得有效嵌入
Patch 大小 \(P\) 是固定超参数，不同场景（城市 vs. 公路）可能需要不同设定
仅在两个数据集上验证，缺少行人/骑行等非车辆轨迹的评估
CGA 的权重三元组 \((w_{\text{endpoint}}, w_{\text{base}}, w_{\text{direction}})\) 需手动调参

评分¶

新颖性: ⭐⭐⭐⭐ 曲率引导增广新颖实用，运动语义+层次编码的组合有设计感
实验充分度: ⭐⭐⭐⭐ 六个研究问题、多数据集、效率分析、消融和超参数实验完整
写作质量: ⭐⭐⭐⭐ 三个 Limitation 对应三个设计，结构清晰
价值: ⭐⭐⭐⭐ 为轨迹表示学习提供了高效且语义丰富的完整方案