SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking¶

日期: 2026-03-08
arXiv: 2603.07564
代码: GitHub
领域: 视频理解
关键词: satellite video tracking, Siamese network, geometry-aware, motion model, real-time

一句话总结¶

提出 SiamGM，从空间几何和时间运动两个维度改进卫星视频跟踪——空间上用帧间图注意力（IFGA）建立细粒度拓扑对应 + 长宽比约束标签分配（LA），时间上用 nPSR 置信度驱动的在线运动模型修正（OMMR），在 SatSOT 上精度领先 4.5%，同时保持 130 FPS 实时速度。

领域现状: 卫星视频单目标跟踪（SVOT）需要在极端条件下持续追踪——目标极小（几十像素）、纹理模糊、长宽比变化大、频繁遮挡。主流方法分为 CNN 的 Siamese 系列和 Transformer 系列。
现有痛点: (a) 目标极小导致外观特征模糊，传统通道级互相关难以捕捉旋转/形变等空间变换；(b) 传统水平框标注对大长宽比目标（如火车、船）会引入大量背景噪声，降低回归精度；(c) 遮挡时纯外观匹配会失效并累积误差，导致不可逆的跟踪漂移。
核心 idea: 从空间几何（IFGA + 长宽比 LA）和时间运动（nPSR + OMMR）两个正交维度系统性地增强 Siamese 跟踪器，同时几乎不增加计算开销。

基于 anchor-free 的 SiamCAR 构建，输入模板+搜索区域 → ResNet-50 特征提取 → IFGA 模块增强搜索特征 → 深度互相关 → 三分支预测头（分类/回归/centerness） → OMMR 后处理修正。

帧间图注意力（IFGA）:
- 做什么：将搜索区域特征作为 query、模板特征作为 key/value，建立跨帧拓扑映射
- 核心思路：\(Q_s = \text{PWC}_q(F_s), K_t = \text{PWC}_k(F_t)\)，通过 softmax 注意力计算搜索区域每个点与模板的对应权重，再聚合增强：\(F_s^{out} = F_s + \gamma \hat{F}_s\)
- 设计动机：小目标缺乏纹理信息，通道级互相关不够，需要点对点的拓扑结构对应来补偿空间变换
- 用通道缩减因子 \(r=4\) 减少计算，仅在 P2/P3 层使用
长宽比约束标签分配（LA）:
- 做什么：根据目标长宽比 \(\rho\) 动态调整 centerness 标签分布
- 核心思路：引入调制因子 \(\alpha(\rho) = \min(1, \rho^\gamma)\)，修改 centerness 计算使正样本沿主轴集中，减少背景噪声
- 额外设计 CGCS（centerness-guided classification score）统一分类和 centerness 的训练-推理差异
在线运动模型修正（OMMR）:
- 做什么：利用 nPSR 动态评估响应图可信度，融合历史轨迹修正跟踪
- nPSR 低（<0.5）→ 不信任当前帧，用 N₁=50 帧长期轨迹线性拟合估计平均速度
- nPSR 高 → 信任当前帧，用 N₂=10 帧短期瞬时速度微调中心坐标，\(\delta' = \alpha \cdot \delta_o + (1-\alpha) \cdot \mathbf{v}\)，其中 \(\alpha = (\text{nPSR})^2\)

三分支联合优化：分类用 CJCL loss + 回归用加权 IoU loss + centerness 用交叉熵，权重 \(\lambda_{cls}=1, \lambda_{reg}=2, \lambda_{cen}=1\)。仅在 VISO 数据集上训练 20 epochs。

方法	SatSOT P-5(%)	SatSOT P-20(%)	SatSOT S.(%)	SV248S P-5(%)	SV248S S.(%)
SiamCAR (baseline)	60.0	67.8	42.7	71.8	41.4
EHTracker	62.2	70.2	47.2	74.3	49.0
TSTrans	61.4	73.0	53.2	80.6	40.8
SiamGM	65.9	74.0	47.6	85.0	50.7

配置	P-5(%)	P-20(%)	S.(%)
Baseline	60.0	67.8	42.7
+IFGA	+2.2	+2.5	+1.8
+LA	+1.8	+2.0	+1.3
+OMMR	+2.5	+3.0	+2.1
Full (IFGA+LA+OMMR)	65.9	74.0	47.6